tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识
下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=
下载之后进行安装,不再演示。
在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是123.jpg
然后运行:tesseract 123.jpg result
会把123.jpg自动识别并转换为txt文件到result.txt
但是此时中文识别不好,要下载一个中文包:http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=
然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata
ok,现在中文识别基本达到90%以上了
测试下:
源文件(图片):此开卷第一回也。作者自云曾历过一番梦幻之后,故将真事隐去,
而借“通灵”说此《石头记》一书也,故曰“甄士隐”云云。但书中所记何事何人?
Tesseract release notes August 27 2007 - V2.01
Fixed UTF8 input problems with box file reader.
4-834578457384578-871238917238912739823749834789
输入:tesseract 123.jpg result
测试结果为:
此开卷第一回也. 作者酝曾历过一番梦幻之后, 故将真事隐去,
而借 “通灵" 说此 «石头记» 一书也, 故日 “甄士隐" 云云,但书中所记何事何人7
Tesseract re1ease notes August Z7 Z007 7 \「Z.O1
Fixed [二TFS input prob1ems \vit11 box fi1e reader.
4783457845738457S7871Z38917Z38912739S23749834789
识别率还是蛮高的,,,更详细的需要自己去钻研了。
相关推荐
压缩包里有两个工程文件,一个是基于模板匹配的字符识别(标准模板库已经做好放进去了,不需要自己在做,直接运行就可以了),另一个是使用谷歌开源TESSERACT库的字符识别,可以实现手写字母(大小写均可)识别,...
利用eclipse平台,java与Tesseract技术实现的中文图像识别(OCR),要求先安装Tesseract3.0
tesseract-ocr 字符识别总结(Linux windows都可以), 博客里面有对应的软件,和语言包如果需要可以去下载
使用tesseract工具,进行orc光学字符,识别文字及登陆验证码。
用于实现OCR的字符识别模块,可以对模块进行OCR识别
OCR,tesseract41,用C#封装接口生成调用库,方便C#使用,有使用例子。
2020-02-25最新下载tesseract中文语言包,支持最新tesseract版本 放置tessdata文件夹并且配置TESSDATA_PREFIX环境变量指向tessdata文件夹
字符识别库 Tesseract-OCR 最新版本支持深度学习方法 版本号:4.1.0-rc1 支持平台VS2015
一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持...可以参考网上的相关资料进行对Tesseract字符识别进行样本训练,通过使用训练后的语言库会提高识别精度。
Tesseract 光学字符识别
2010+opencv+tesseract对话框加载图片识别字符程序 是一个小软件,用于学习字符识别,图片处理知识。工程是基于vs2010,opencv2.9.11,tesseract3.0.2版本开发. 软件中处理模糊图片进行预处理。如果不需要去掉相关的...
http://blog.csdn.net/firehood_/article/details/8433077 本人参考这篇博客练习样本训练,整理了这些材料,材料中包括以下这些tesseract-ocr-setup-3.01-1.rar:tesseract-ocr-setup-3.01-1.exe安装包、...
Tesseract-OCR字符识别,包括中文英文的文字识别,里面可以训练自己的模型
从github上下载,已经用cmake生成include,lib,bin等文件夹,只需要在VS上添加相应路径即可,亲测可用,解压后打开OCR文件夹即可找到include等文件。
C#调用Tesseract3.0.2识别验证码所需要的组件,包括引用的一些DLL,以及字符识别包
默认可以识别英文字符及数字,若需要识别中文字符,转至 https://download.csdn.net/download/chengzi_comm/10714777 页面下载。 识别引擎使用方式: 1. 解压安装到系统安装目录,比如"C:\Program Files (x86)\...
用matlab语言实现一幅图像中某个字符的识别
采用tesseract3.02+mfc+opencv提取中文、英文、数字字符
tesseract-ocr 光学字符识别安装程序 3.02.02版本