OCR技术:如何将图片中的文字转换成文本

最近蒙城华人报很多介绍蒙特利尔的活动与夏季避暑胜地之类的旅游性文章。非常想将这些文字与大家分享,但是打字太累了。总想起以前给我爸用五笔打合同的感觉。太恐怖了,像噩梦一样。今天介绍一下如何将报纸上的文字直接变成文本文件存到电脑里。

这里就不得不介绍一下 OCR技术了。

光学字符识别 (OCR) 是将扫描的打印/手写图片文件转换为可以机器识别的可编辑文本格式。OCR 软件通过分析文档然后与存储在数据库中的字体进行比较,以及/或者标记出字体的典型特征来工作。有些 OCR 软件也通过拼写检查来“猜测”不能识别的单词。100% 精确是很难达到的,不过能够做到尽量接近是大多数软件争取的目标。

貌似现在很多小说站站长都非常精通OCR技术,哈哈,因为他们得弄TXT小说文档啊。

其实OCR技术离我们并不远,没准你的电脑里就隐藏着一款OCR软件。。没错,今天我介绍的就是 OFFICE OneNote 这款软件。很多朋友家里都安装了 Microsoft Office 了吧,不管是2003、2007还是最新的2010。我们都可以利用 OneNote 来做OCR识别。

首先准备好你需要转换文本的图片,如果是报纸,那么请先用扫描仪将图片扫描下来,话说貌似现在很多扫描仪也都带OCR功能了。你可以找一下你的打印机是否有这项功能。

使用方法:
1、打开 Office OneNote

2、导入一张图片


3、右键单击图片、选择复制图片中的文本


4、粘贴

5、虽然有些误差,不过效果貌似不错。