很多人都会遇到需要下载百度文库的资料,但大部分的文档都需要会员才可以下载或复制,有的甚至需要付费,而百度文库的使用频次太低又没必要开通会员,所以大部分人就只能通过截图文字识别的方式提取文字内容,遇到内容多的时候就很麻烦。该方法或可解决您的难题,但是需要自己后期简单调整内容和格式。
建议使用Chrome浏览器
文档查找
在百度文库查找自己所需的Word文档,并打开链接。以《互联网医院在线处方管理制度》为例。
百度文库搜索示例图
文档内容提取
浏览器内单击鼠标右键,选择“检查”或按F12调取浏览器开发者调试工具,选择Elements标签。
点击调试工具左上角小鼠标按钮,单击选择正文部门,找到浏览器元素中class=“reader-container”的div标签,并选择复制
文档内容元素提取
将其复制到notepad、sublime、coteditor等支持正则表达式的编辑器中
内容元素整理
打开编辑器的“查找/替换”功能,选择正则表达式匹配。
通过<div class="hx-warp.*?<div class="reader-page.*?>批量替换为空去除广告内容;
通过<.*?>批量替换为空内容,去除网页标签内容;
通过 批量替换为空内容,去除多余的空格。
替换前内容
替换后内容
文档格式调整
将内容元素整理好后,粘贴至Word文档,删掉多余的文字和广告,并进行简单的格式调整即可。