Google Docs 推出 OCR 文字辨识功能,可自动撷取、转换 PDF、图片中的文字!
附近「Google文档文件格式目录名称」面市了个新的系统,仅仅我们在上传PDF文档文件格式目录名称档或图片时,若勾选「 将 PDF 档案或图片档案中的图片字体 转换为Google 文档文件格式目录名称」系统的话,在上传之後,会自动将PDF或图剧里能够辨识的图片字体 撷卸下来来,并记录在Google文档文件格式目录名称中让我们进一部做编辑。
初步测试,以软体编制的PDF文件中的文字可以正常抓得到,而且还可支援中文文字辨识,正确率还不错。不过部分图片中的文字就无法顺利撷取,可能得再多试试看不同样本。尽管如此,还是相当方便!如果有需要将PDF转成一般文件来继续编辑的话,可以上传到Google Docs网站来试试看。
网站名称:Google 文件(Google Docs) 网站网址:
使用方法:
第1步 开启并登入Google Docs网站,按一下左上角的「上传」按钮。
第2步 先按「请选取要上载的档案」选取你要上传的PDF文件档,然後勾选「将 PDF 档案或图片档案中的文字转换为Google 文件」这个项目,再按一下「开始上载」,将PDF文件档上传到Google Docs网站去。
第3步 上传完成後,按一下档案名称,开启文件内容。
第4步 如图,原本储存在PDF文件中的文字内容已经被撷取出来,并储存在Google Docs文件中让我们编辑了。
图文左下方还会以图示的玩法附上原有的PDF档案内容,让我们比对看看吧有没错漏。 核心上图文领域的辨识能力素质还算会,不过转换後的文章排版与展板性能、报表的前半部就没法强求了。延伸阅读:
版大暨各位大大
我上传3MB档案,Google就说档案太大。 也很有可能是要辨识吧!
上传几次(缩小档案规模),无论是.jpg或是.pdf都无法辨识。
可惜了