安全放心的免费绿色软件下载网站!
win7纯净版 > 电脑软件 > 图形图像 > tesseract-ocr(开源图像识别引擎)

tesseract-ocr(开源图像识别引擎)

简介:Tesseract-ocr 是一款免费并且开源的图像识别OCR引擎,它最早由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。它可以读取各种格式的图像并将它们转换
软件大小: 12.8M
应用平台: Windows
软件类别: 图形图像
软件评级: 5星
软件语言: 简体中文
更新时间: 2020-09-19
软件介绍
Tesseract-ocr是一款免费并且开源的图像识别OCR引擎,它最早由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。它可以读取各种格式的图像并将它们转换成超过60种语言的文本。2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。我们可以使用它制作拥有验证码识别、身份证识别、图像转文字等功能的软件。

什么是OCR识别?

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。目前国内水平较高的中文ocr有清华文通、汉王、尚书等,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统。对于一般的程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。

tesseract-ocr安装与使用图文教程

1.打开下载的压缩包,找到“tesseract-ocr-setup-3.02.02.exe”,双击运行,进入下图所示安装界面,点击“next”。

2.勾选“I accept....”,然后点击“next”。

3.选择可以使用该软件的用户,这里我们选择第一个,任何使用该电脑的人都可以使用它,然后点击"next"。

4.选择安装路径,之后点击“next”。

5.选择需要安装的组件,默认是没有勾选语言组件的,我们可以勾选自己想要识别的语言。勾选简体中文的话,那么就可以识别有简体中文的图像了,其他语言同理。

6.正在安装中,请耐心等待。

7.安装完成之后我们打开cmd,输入“tesseract”,出现下图所示表示安装成功。

8.这里小编从网上下了一个验证码的图片作为演示,我们可以看到这张图片内的数字为7364,小编给该图片命名为“test.png”。

9.接下来,进入图片所在路径,输入“tesseract  test.png  test”,后面的test表示将识别出来的内容放在test文本文件中。不出意外我们的图片所在的文件夹下将会生成一个test.txt文本文件。

10.果然生成了test.txt文本文件,打开可以看到内容为7364,和我们下载图片的内容一致,识别成功!有关各种命令行选项的更多信息,请使用tesseract --help或man tesseract。
相关教程
更多+