支持 .docx、.doc 格式
- | -
保留字体、颜色、大小等样式信息,适合需要完整还原文档外观的场景
只保留语义化标签,移除内联样式,适合后期自定义样式
只提取纯文本内容,不包含任何HTML标签