奇妙数据

火车采集器V9版本实现ocr图片识别功能
火车采集器V9版本实现ocr图片识别功能火车采集器是一款比较优秀的数据采集软件,其稳定性和高度扩展性使得多年来一直...
扫描右侧二维码阅读全文
07
2019/09

火车采集器V9版本实现ocr图片识别功能

火车采集器V9版本实现ocr图片识别功能

火车采集器是一款比较优秀的数据采集软件,其稳定性和高度扩展性使得多年来一直作为数据采集市场中的一款流行工具。目前使用较多的是火车采集器V7.6版本和火车采集器V9版本,用过7.6版本的用户应该知道在该版本中有ocr图片识别功能可以直接使用,但是在V9版本中这个还算实用的功能却被去掉了。对于依然需要使用该功能的v9用户,现在可以使用本文中提到的locoy-ocr插件在V9版本中同样实现ocr图片识别功能,实现诸如手机号码等基础图像的文字识别效果,现将基于python开发的火车采集器图像识别插件免费分享给大家

识别原理

locoy-ocr3.jpg

识别效果

测试网址http://www.qincai.net/random.png
目前基于自带的识别库只能识别相对规则的图片,如需提高识别率,需要自建ocr训练集。先看一下插件实现的效果

locoy-ocr1.gif

locoy-ocr2.gif

环境准备

该ocr识别插件基于python语言制作,识别功能依赖tesseract组件完成,所以需要计算机中装有Python3环境和tesseract软件

  1. 安装Python3环境及用到的库
    配置python到系统环境变量,在cmd窗口中输入python -V能看到版本号则配置成功,推荐直接安装anaconda集成python环境。使用pip install -r requirements.txt利用插件中的requirements文件一键安装依赖库
  2. 安装tesseract4.0以上软件
    配置tesseract到系统环境变量,在cmd窗口中输入tesseract -v能看到版本号则配置成功,可参考教程Windows环境安装tesseract-ocr 4.00并配置环境变量
  3. tesseract下载地址:

使用教程

  1. 导入插件到火车采集器
  2. 插件识别的标签名为ocr,所以将需要识别的图片链接采集到该标签下,直接运行即可实现图片文字自动识别
  3. 参数设置
    因不同图像的差异性较大,ocr识别率有限,所以为了更准确的进行图像识别,本插件可支持用户设置多个参数对待识别的图片进行预处理,支持的参数如下,一定要严格按参数列表中的示例添加参数,不需要的参数不要创建标签,否则会报错

支持的参数列表

标签名说明示例必选
ocr图像地址http://www.qincai.net/random.png
ocr参数二值化,二值化阈值(1-255),去噪点,去干扰线,去边框,测试效果1,127,0,0,0,0
ocr白名单仅识别白名单中的字符0123456789abcdefghijklmnopqrstuvwxyz
ocr黑名单用于排除不需要的字符.*
ocr长度限制识别字符长度,比如手机号长度11位,不符合要求的会替换为-11

插件下载

推荐从github下载最新版本使用,里面的ljobx文件为测试规则,可直接导入火车采集器v9及以上版本使用

欢迎加入火车采集器技术交流群

群号:171931447
点击加群:【火车采集器技术交流】

最后修改:2019 年 09 月 10 日 12 : 36 PM
如果觉得我的文章对你有用,请随意赞赏

1 条评论

  1. nedd

    感谢分享,拿走了

发表评论