Centos7 安装 tesseract-ocr 4.0

    本文地址:http://tongxinmao.com/Article/Detail/id/369


    yum groupinstall "Development Tools"


    git clone https://github.com/tesseract-ocr/tesseract.git


    wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz

    (4.0要修必须在1.74以上)

    tar -xzvf leptonica-1.74.4.tar.gz
    cd leptonica-1.74.4
    ./configure --prefix=/usr/local/
    make && make install


    vim /etc/bashrc 

    添加:


    PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/lib/pkgconfig
    export PKG_CONFIG_PATH
    CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/include/
    export CPLUS_INCLUDE_PATH
    C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
    export C_INCLUDE_PATH
    LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
    export LD_LIBRARY_PATH
    LIBRARY_PATH=$LIBRARY_PATH:/usr/local/lib
    export LIBRARY_PATH
    TESSDATA_PREFIX=/root/tesseract/
    export TESSDATA_PREFIX


    source /etc/bashrc


    安装autoconf-archive

    wget http://springdale.math.ias.edu/data/puias/computational/7/x86_64//autoconf-archive-2016.09.16-1.sdl7.noarch.rpm

    rpm -i autoconf-archive-2016.09.16-1.sdl7.noarch.rpm


    cd tesseract


    ./autogen.sh


    ./configure —prefix=/usr/local/


    make install

     


    语言文件

    /usr/local/share/tessdata

     export TESSDATA_PREFIX=/usr/local/share/tessdata/

    cd /usr/local/share/tessdata
    wget https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata


    白名单:

    C:\Program Files (x86)\Tesseract-OCR\tessdata\configs文件夹目录下,复制digits并命名为yours,用notepad++编辑


     

    tessedit_char_whitelist 0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ

    如果你是使用的3.04,按教程直接使用


     

    tesseract C:\1.jpg C:\1 yours

    你会很轻松地得到想要的结果。


    但是如果你使用的是4.00,你会发现白名单毫无作用。


    奇怪,难道是配置环境出错了?还是字母打错了?都不是。


    tesseract提供了OCR引擎模式。


     

    0 =仅限原始Tesseract

    1 =只有神经网络LSTM

    2 =Tesseract + LSTM

    3 =基于可用的默认值

    目前LSTM是无法支持白名单的,并且似乎tesseract的团队无意去解决这个问题。

    选择原始tesseract 即 --oem 0


    tesseract --oem 0 C:\1.jpg C:\1 yours

    这样你就能使用白名单了。但是识别正确率会比原先低。


    上一篇:NTP使用
    下一篇:SPRT-POS88VUF USB 描述符