如果您想单纯将html、Office、pdf文件中所包含的文字复制出来,您可能需要一个个的打开复制粘贴,另外像PDF文件可能还被加了复制限制导致无法复制粘贴。让DocumentTextExtractor这款提取html、Office、pdf文件所含文字工具来帮您吧。
界面预览图:
DocumentTextExtractor 是一个很实用的提取html、Office、pdf文件所含文字工具,它的主要功能用来帮您从文档(html文件,MS-Office文件,pdf文件)提取文本。
DocumentTextExtractor支持提取HTML、 MS-Office及PDF文件内的文字,并可储存成文本文件。
DocumentTextExtractor对于中文字符的支持很不错,可以很不错的提取中文。
DocumentTextExtractor提取PDF文件内的文字教程:
1、解压压缩包,执行DocumentTextExtractor.exe打开软件。
2、点击[ File—Open Document File ]按钮,选择PDF文件。
3、接下来软件就会将该PDF文件中的文字给提取出来并保存成TXT文本了。
DocumentTextExtractor高级使用方法:
为了从文档中提取文本,只需将文档文件从资源管理器窗口拖到DocumentTextExtractor的主窗口中,或使用打开文档文件选项(Ctrl + O)。
您还可以从命令行生成文本文件,例如,此命令从1.docx中提取文本并将其保存到1.txt中:
DocumentTextExtractor.exe / ExtractText c:\ temp \ 1.docx c:\ temp \ 1.txt
请注意,唯有在系统上装了正确的搜索过滤器后,此工具才可以起作用。为了从pdf文件中提取文本,您可能需要安装Adobe 的PDF iFilter。
软件分64位和32位版本。。。解压后直接运行即可。