大漠ocr识别字库的生成,和使用方法
版权声明:
本文为博主原创文章,转载请声明原文链接...谢谢。o_0。
更新时间:
2017-09-04 17:56:06
温馨提示:
学无止境,技术类文章有它的时效性,请留意文章更新时间,如发现内容有误请留言指出,防止别人"踩坑",我会及时更新文章
注:此ocr识别只能识别一些规则的矩阵字体,想识别一些很不规则的验证码,恐怕就有点难喽
大漠dll一个识别速度很快的dll
进行文字识别的时候,因为汉字有很多字体,所有想一个函数直接识别所有的文字是不可能的,对每种字体的识别要有一个专门的字体库来配合
首先打开大漠综合工具来创建一个要识别的字库,工具里面按钮特别多,下面一个一个来截图记录下
打开或新建字库,点击后写个库存的名字保存
打开微信随便找一个了天窗口发一个0123456789然后点击大漠工具中的抓图把发的这一部分数字截出来
注意看右边的一块黑色区域是二值化的区域,下面我们要把图中的数字色块给选择出来
然后点击下面坐标旁的一个色块鼠标移动到数字上先一个色块,这个颜色值就会显示在RGB框中,然后复制到偏色输入框中后要的勾上,这时候右边的二值化区域就显示一个大概的数字啦
继找多个色块直到数字可以识别出来后点击提取点陈(多个)
提取的就是识别出来的文字块
比较幸运两次就找对啦。刚好9个,看啦一下每个块对应的数字也正确,如果出现有两个字连成一块的情况 ,肯定是有颜色没有选择对,再选就可以啦
最后对每一个数字块定义一个文本对应字库就生成啦
使用方法
DmSoft dm = new DmSoft(); dm.SetPath("字库路径"); dm.SetDict(0,"字库文件名.txt"); string str = dm.Ocr(686, 499, 839, 542, "3b2424-3b2424|796e24-796e24", 0.8); Console.WriteLine("识别出来的文字为:{0}",str); //释放大漠对象 dm.close();
注意里面的颜色格式串 "3b2424-3b2424|796e24-796e24" 可以直接从工具里复制出来