為解決煤炭運(yùn)輸車輛因印刷文本嚴(yán)重破損和抓拍圖像畸變導(dǎo)致的車廂號(hào)、車載重信息識(shí)別率低的問題,提出一種基于OCR的車廂局部區(qū)域文本識(shí)別方法,通過DBNet 檢測(cè)文本區(qū)域并排序,經(jīng)FPGM算法裁剪矯正后,采用膨脹算法和對(duì)比度調(diào)整進(jìn)行圖像增強(qiáng),最后利用CRNN實(shí)現(xiàn)文本識(shí)別?;?06 張圖像數(shù)據(jù)集進(jìn)行試驗(yàn),對(duì)比Yolov8+OCR算法,結(jié)果顯示該方法識(shí)別率達(dá)98%,平均識(shí)別時(shí)長(zhǎng)3 s,召回率0.996,精確率0.985,顯著提升識(shí)別準(zhǔn)確性與效率。
文章來源:《智能礦山》2025年第9期“學(xué)術(shù)園地”欄目
第一作者:許袁,主要從事圖像信息處理和機(jī)器視覺的相關(guān)研究工作。E-mail:1607338441@qq.com
作者單位:英飛智信(蘇州)科技有限公司;英飛智信(北京)科技有限公司;山西汾西礦業(yè)集團(tuán)水峪煤業(yè)有限責(zé)任公司
引用格式:許袁,張?jiān)普?,高文祥,?基于 OCR 的車廂局部區(qū)域文本識(shí)別方法及應(yīng)用[J].智能礦山,2025,6(9):79-83.
點(diǎn)擊文末左下角閱讀原文,免費(fèi)下載閱讀pdf全文
關(guān)注微信公眾號(hào),了解更多礦山智能化建設(shè)進(jìn)展
在煤炭運(yùn)輸過程中,車廂上印刷的信息識(shí)別至關(guān)重要。此信息詳細(xì)記錄了運(yùn)輸車輛的相關(guān)數(shù)據(jù),為煤炭運(yùn)輸?shù)娜^程提供了有效的追蹤手段。通過驗(yàn)證車廂印刷信息,可有效降低煤炭盜竊或非法運(yùn)輸風(fēng)險(xiǎn),保障運(yùn)輸活動(dòng)的合法性和安全性。
準(zhǔn)確讀取和管理車廂印刷信息,在提升煤炭運(yùn)輸過程的透明度、安全性及效率方面發(fā)揮重要作用。因車廂上印刷的文本破損嚴(yán)重,且抓拍圖像易存在畸變,導(dǎo)致提取車廂號(hào)和車載重信息識(shí)別率不佳。
光學(xué)字符識(shí)別(OCR)利用電子設(shè)備檢查打印字符,通過檢測(cè)暗、亮的模式確定形狀,然后用字符識(shí)別方法,將形狀翻譯成計(jì)算機(jī)文字的過程。OCR一般分為手寫體識(shí)別和印刷體識(shí)別,可識(shí)別阿拉伯?dāng)?shù)字、漢字和英文字母等各種字符。識(shí)別步驟為版面分析、預(yù)處理、行列切割、字符識(shí)別、后處理識(shí)別矯正。
OCR的車廂文本識(shí)別方法網(wǎng)絡(luò)框架
基于OCR的車廂局部區(qū)域文本識(shí)別方法框架主要分為4個(gè)部分:利用DBNet檢測(cè)需要識(shí)別的文本區(qū)域,對(duì)不同區(qū)域進(jìn)行位置排序;裁剪文本框并矯正其位置,使文本框在圖像中準(zhǔn)確對(duì)齊,保持正確方向;使用圖像增強(qiáng)算法對(duì)文本中斷接嚴(yán)重的區(qū)域進(jìn)行連接,增強(qiáng)圖像中文本的特征信息;最后利用CRNN實(shí)現(xiàn)文本識(shí)別,OCR識(shí)別流程整體流程如圖1所示。
圖1 OCR識(shí)別整體流程
1.1 基于DBNet的文本檢測(cè)
DBNet算法中的可微分二值化(DB)是通過將二值化過程整合到神經(jīng)網(wǎng)絡(luò)中,使模型在訓(xùn)練過程中動(dòng)態(tài)調(diào)整閾值,提取背景圖像中的不同文本區(qū)域,提升本網(wǎng)絡(luò)對(duì)不同文本區(qū)域的適應(yīng)性。
文本檢測(cè)時(shí),DB通過網(wǎng)絡(luò)預(yù)測(cè)每個(gè)像素的動(dòng)態(tài)閾值,精確分離文本與背景。與傳統(tǒng)二值化方法相比,DB具有可微性,可端到端訓(xùn)練,提高文本檢測(cè)的準(zhǔn)確性,DBNet網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。
圖2 DBNet網(wǎng)絡(luò)結(jié)構(gòu)
圖像通過特征金字塔網(wǎng)絡(luò)提取多尺度的特征圖,將特征圖上采樣至相同尺度,并級(jí)聯(lián)生成綜合特征圖F;利用特征圖F,模型預(yù)測(cè)出概率圖P和閾值圖T,計(jì)算出近似二值圖。模型訓(xùn)練時(shí)會(huì)對(duì)閾值圖、概率圖及近似二值圖進(jìn)行監(jiān)督,其中概率圖和近似二值圖共享相同的監(jiān)督信號(hào)。推理階段通過框形化模塊從近似二值圖或概率圖中提取文本區(qū)域的邊界框。
1.2 文本剪裁與矯正
利用裁剪解決模型參數(shù)冗余問題,提高模型推理效率。模型裁剪是通過去除網(wǎng)絡(luò)中冗余的通道、濾波器和神經(jīng)元等,得到更輕量網(wǎng)絡(luò),盡可能保證模型精度。裁剪濾波器方法可得到更規(guī)則的模型,減少內(nèi)存消耗,加速模型推理過程,該方法大多基于范數(shù)進(jìn)行裁剪,范數(shù)和濾波器重要程度成正比。
基于幾何中心點(diǎn)的裁剪算法(FPGM)結(jié)構(gòu)如圖3所示,將卷積層中的每個(gè)濾波器都當(dāng)作歐幾里得空間中的1個(gè)點(diǎn),且該點(diǎn)滿足與所有采樣點(diǎn)距離之和最小的條件,幾何中心點(diǎn)評(píng)估每個(gè)濾波器的重要性。利用方向分類器分類文本檢測(cè)出的文本實(shí)例方向,將文本旋轉(zhuǎn)到0°或180°后,再送入文本識(shí)別器中,使文本框在圖像中準(zhǔn)確對(duì)齊并保持正確方向。
圖3 FPGM結(jié)構(gòu)
1.3 圖像增強(qiáng)方法
Hide-and-Seek是一種數(shù)據(jù)增強(qiáng)方法,將圖片切分為S×S個(gè)網(wǎng)格,每個(gè)網(wǎng)格采用一定概率進(jìn)行遮擋,模擬出隨機(jī)擦除效果。數(shù)據(jù)增強(qiáng)方法使模型可根據(jù)沒有被遮擋住的物體特征進(jìn)行識(shí)別,增強(qiáng)特征的表達(dá)能力,提高模型的泛化能力。在Hide-and-Seek中,不同網(wǎng)格之間可能存在不同的遮擋情況,利用數(shù)據(jù)集的均值填充被遮擋的區(qū)域,確保訓(xùn)練和測(cè)試數(shù)據(jù)分布的一致性。
膨脹算法主要用于二值圖像的形態(tài)學(xué)操作。膨脹算法是通過對(duì)圖像中前景對(duì)象進(jìn)行擴(kuò)展,增加對(duì)象的邊界或填補(bǔ)對(duì)象內(nèi)部的小空洞。膨脹操作有效連接斷接嚴(yán)重的文本,加強(qiáng)圖像中的文本特征,提高圖像的連通性和完整性,具體分為4個(gè)步驟。
(1)選擇1個(gè)結(jié)構(gòu)元素,形狀和大小決定膨脹范圍。
(2)將結(jié)構(gòu)元素的中心點(diǎn)與圖像的每個(gè)像素對(duì)齊,遍歷整個(gè)圖像。
(3)當(dāng)結(jié)構(gòu)元素中的任一點(diǎn)與前景像素重疊時(shí),更新該位置的像素值為前景像素。
(4)膨脹處理后的圖像中前景對(duì)象顯著增大、邊界擴(kuò)展,空洞部分得到填補(bǔ)。
對(duì)比度調(diào)整在圖像處理領(lǐng)域中至關(guān)重要,特別是在文本識(shí)別任務(wù)中。通過增加文本區(qū)域的亮度、圖像對(duì)比度和背景噪聲間的差異使文本更突出,減少背景干擾對(duì)文本識(shí)別的負(fù)面影響,在原始圖像質(zhì)量較低或?qū)Ρ榷炔蛔愕那闆r下,對(duì)比度調(diào)整的視覺增強(qiáng)效果更明顯。
1.4 基于CRNN的文本識(shí)別
選用CRNN算法識(shí)別圖像文本,CRNN算法的特征提取部分選用卷積結(jié)構(gòu),使網(wǎng)絡(luò)更關(guān)注文本的局部信息,引入雙向LSTM增強(qiáng)上下文建模,將輸出特征序列輸入到CTC模塊,直接解碼序列結(jié)果。CRNN屬于規(guī)則文本識(shí)別,文字不能彎曲。CRNN的網(wǎng)絡(luò)結(jié)構(gòu)包括3個(gè)部分,從上到下依次為卷積層、遞歸層和轉(zhuǎn)錄層,CRNN網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 CRNN網(wǎng)絡(luò)結(jié)構(gòu)
(1)卷積層用于提取圖像中的特征,輸出作為遞歸網(wǎng)絡(luò)的輸入。
(2)遞歸層用于處理序列數(shù)據(jù),有效捕捉輸入序列中的時(shí)序依賴關(guān)系。
(3)轉(zhuǎn)錄層將遞歸層的輸出轉(zhuǎn)化為最終的預(yù)測(cè)結(jié)果。
CRNN網(wǎng)絡(luò)利用CTC(CTC)損失處理輸入和標(biāo)簽長(zhǎng)度不匹配的問題,通過考量所有可能的標(biāo)簽序列對(duì)齊方式優(yōu)化網(wǎng)絡(luò),支持模型端到端的訓(xùn)練。在CRNN中,用1個(gè)全連接層作為解碼的輕量級(jí)頭,將序列特征轉(zhuǎn)換為字符預(yù)測(cè)。
OCR的車廂文本識(shí)別方法試驗(yàn)結(jié)果
基于PyTorch深度學(xué)習(xí)框架,使用Windows系統(tǒng),GPU型號(hào)為NVIDIA RXT A4000。本網(wǎng)絡(luò)數(shù)據(jù)集中包含806張圖像,隨機(jī)選擇其中的136張作為驗(yàn)證圖像,同時(shí)將所有圖像的尺寸調(diào)整成為256×256。對(duì)訓(xùn)練圖像進(jìn)行平移、旋轉(zhuǎn)、縮放等變換,生成多種不同視角的圖像樣本,增加訓(xùn)練數(shù)據(jù)集的多樣性,使模型學(xué)習(xí)更多的特征。
2.1 OCR的車廂文本識(shí)別方法數(shù)據(jù)集
利用PaddleLabel對(duì)數(shù)據(jù)集中圖像的車廂號(hào)和車載重信息區(qū)域進(jìn)行標(biāo)簽,打標(biāo)后的圖像會(huì)自動(dòng)識(shí)別矩形標(biāo)注區(qū)域的文本。由于部分圖像質(zhì)量較差,識(shí)別結(jié)果需人工檢查和糾錯(cuò),數(shù)據(jù)集標(biāo)簽圖像如圖5所示。
圖5 數(shù)據(jù)集標(biāo)簽圖像
標(biāo)簽?zāi)J(rèn)為自然數(shù),從0開始,使用矩形標(biāo)注方式對(duì)文本進(jìn)行打標(biāo),并按打標(biāo)順序?qū)⒕匦慰蚺c標(biāo)簽一一對(duì)應(yīng)。標(biāo)注完成后,系統(tǒng)會(huì)對(duì)標(biāo)簽區(qū)域圖像進(jìn)行裁剪,增強(qiáng)前的裁剪圖像如圖6所示。
圖6 增強(qiáng)前圖像
圖像增強(qiáng)處理常用于高級(jí)視覺任務(wù)的預(yù)處理階段,提升模型對(duì)圖像特征的提取能力。利用膨脹算法連接圖像中字符的斷接部分,并通過調(diào)整對(duì)比度,使文字更加連貫,圖像質(zhì)量更佳。增強(qiáng)后的裁剪圖像如圖7所示。
圖7 增強(qiáng)后的裁剪圖像
2.2 試驗(yàn)結(jié)果與分析
從訓(xùn)練集中隨機(jī)挑選了136張圖像作為測(cè)試集,該圖像涵蓋了不同程度的文本破損、圖像畸變以及各種拍攝條件,確保了數(shù)據(jù)集的多樣性和代表性。
選用Yolov8和OCR結(jié)合的技術(shù)作為對(duì)比算法,首先利用Yolov8檢測(cè)和定位圖像中的目標(biāo)區(qū)域,接著通過OCR技術(shù)從檢測(cè)到的區(qū)域中提取文本信息。Yolov8算法高效且精準(zhǔn)的定位能力,與OCR技術(shù)結(jié)合后,在保證精度的前提下提升整體處理速度和系統(tǒng)可靠性,優(yōu)化信息提取效率。改進(jìn)后的OCR算法識(shí)別結(jié)果對(duì)比如圖8所示,文本識(shí)別后的顯示順序與圖像標(biāo)簽順序一致。
圖8 識(shí)別結(jié)果對(duì)比
圖8(a)中車廂號(hào)末尾的數(shù)字靠近圖像邊緣,導(dǎo)致對(duì)比算法無法識(shí)別全部數(shù)字,當(dāng)拍攝環(huán)境較差時(shí)識(shí)別效果更差;圖8(b)對(duì)比算法的識(shí)別結(jié)果中,車廂號(hào)和車載重顯示順序顛倒;圖8(c)中數(shù)字連接不流暢,對(duì)比算法識(shí)別結(jié)果錯(cuò)誤。
改進(jìn)后的OCR算法能夠有效識(shí)別破損和畸變嚴(yán)重文本,且識(shí)別結(jié)果連貫,避免出現(xiàn)字符串組合錯(cuò)誤的情況,在拍攝條件較差的情況下仍能保證識(shí)別準(zhǔn)確率,性能更穩(wěn)定。選用召回率和精確率作為模型性能的評(píng)估指標(biāo),精確率越高,表明模型識(shí)別結(jié)果中錯(cuò)誤較少;召回率越高,表明模型盡可能多地識(shí)別出所有真實(shí)的文本內(nèi)容。模型的指標(biāo)結(jié)果見表1。
表1 模型指標(biāo)
對(duì)比算法與OCR算法在數(shù)據(jù)集圖像識(shí)別率和識(shí)別平均時(shí)長(zhǎng)的對(duì)比結(jié)果見表2。結(jié)合表1、表2中數(shù)據(jù)可知,OCR算法識(shí)別準(zhǔn)確率較高、速度較快,且識(shí)別結(jié)果更加直觀。
表2 識(shí)別結(jié)果對(duì)比
2.3 改進(jìn)后的OCR算法優(yōu)勢(shì)
(1)列車掃描儀也可用于提取車廂局部區(qū)域文本,性能穩(wěn)定可靠但成本較高,且靈活性有限。在需要快速部署和靈活調(diào)整的場(chǎng)景中,列車掃描儀適應(yīng)性較差,特別是在面對(duì)多變和復(fù)雜的車廂環(huán)境時(shí),難以快速響應(yīng)不同操作需求和場(chǎng)景變化。
(2)改進(jìn)后的OCR算法算法具有出色的靈活性、開發(fā)效率和跨平臺(tái)適應(yīng)性,且支持多語言識(shí)別,可以在不同硬件平臺(tái)和操作系統(tǒng)上高效部署,該算法能夠快速適應(yīng)復(fù)雜場(chǎng)景中的優(yōu)化,應(yīng)對(duì)快速變化的需求,相較于傳統(tǒng)硬件設(shè)備,部署成本更低。
(3)改進(jìn)后的OCR算法在車廂文字識(shí)別領(lǐng)域獲得更廣泛的應(yīng)用,特別是在成本控制、快速部署和實(shí)時(shí)處理的情況下,提供了一種經(jīng)濟(jì)高效的解決方案。未來的應(yīng)用場(chǎng)景不限于車廂信息提取,可拓展到車內(nèi)實(shí)時(shí)信息反饋、乘客引導(dǎo)、設(shè)備監(jiān)控及應(yīng)急情況下的文字信息識(shí)別等。OCR的開源特性提供了高度可擴(kuò)展性,能夠與其他智能技術(shù)結(jié)合進(jìn)行二次開發(fā)和定制,進(jìn)一步提升車廂管理的智能化水平。
結(jié) 語
改進(jìn)后的OCR的車廂局部區(qū)域文本識(shí)別方法,通過DBNet檢測(cè)、FPGM裁剪矯正、圖像增強(qiáng)及CRNN識(shí)別的協(xié)同應(yīng)用,有效解決了煤炭運(yùn)輸車廂文本破損和圖像畸變導(dǎo)致的識(shí)別難題,顯著提升了識(shí)別率與效率。該方法在保證高精度的同時(shí),具備低成本、高靈活性的優(yōu)勢(shì),為煤炭運(yùn)輸管理的智能化提供了有力技術(shù)支撐。未來可進(jìn)一步優(yōu)化
編輯丨李莎
審核丨趙瑞
煤炭科學(xué)研究總院期刊出版公司擁有科技期刊21種。其中,SCI收錄1種,Ei收錄5種、CSCD收錄6種、Scopus收錄7種、中文核心期刊9種、中國(guó)科技核心期刊11種、中國(guó)科技期刊卓越行動(dòng)計(jì)劃入選期刊4種,是煤炭行業(yè)最重要的科技窗口與學(xué)術(shù)交流陣地,也是行業(yè)最大最權(quán)威的期刊集群。
期刊簡(jiǎn)介
《智能礦山》(月刊,CN 10-1709/TN,ISSN 2096-9139)是由中國(guó)煤炭科工集團(tuán)有限公司主管、煤炭科學(xué)研究總院有限公司主辦的聚焦礦山智能化領(lǐng)域產(chǎn)學(xué)研用新進(jìn)展的綜合性技術(shù)刊物。
主編:王國(guó)法院士
刊載欄目:企業(yè)/團(tuán)隊(duì)/人物專訪政策解讀視角·觀點(diǎn)智能示范礦井對(duì)話革新·改造學(xué)術(shù)園地、專題報(bào)道等。
投稿網(wǎng)址:www.chinamai.org.cn(期刊中心-作者投稿)
?? 征稿函詳見鏈接: 征稿┃《智能礦山》面向廣大讀者征稿,歡迎投稿
期刊成果:創(chuàng)刊5年來,策劃出版了“中國(guó)煤科煤礦智能化成果”“陜煤集團(tuán)智能化建設(shè)成果”“聚焦煤炭工業(yè)‘十四五’高質(zhì)量發(fā)展”等特刊/專題30多期。主辦“煤礦智能化重大進(jìn)展發(fā)布會(huì)”“煤炭清潔高效利用先進(jìn)成果發(fā)布會(huì)”“《智能礦山》理事、特約編輯年會(huì)暨智能化建設(shè)論壇”“智能礦山零距離”“礦山智能化建設(shè)運(yùn)維與技術(shù)創(chuàng)新高新研修班”等活動(dòng)20余次。組建了理事會(huì)、特約編輯團(tuán)隊(duì)、卓越人物等千余人產(chǎn)學(xué)研用高端協(xié)同辦刊團(tuán)隊(duì),打造了“刊-網(wǎng)-號(hào)-群-庫”全覆蓋的1+N全媒體傳播平臺(tái),全方位發(fā)布礦山智能化領(lǐng)域新技術(shù)、新產(chǎn)品、新經(jīng)驗(yàn)。
?? 具體詳見鏈接:《智能礦山》創(chuàng)刊4周年回顧
聯(lián)系人:李編輯 010-87986441
郵發(fā)代號(hào):82-476
?? 期刊訂閱詳見鏈接:歡迎訂閱┃《智能礦山》雜志2026年訂閱開始了!
往期薦讀
行業(yè)聚焦┃2025年礦山智能化建設(shè)運(yùn)維與技術(shù)創(chuàng)新高級(jí)研修班成功在威海舉辦
行業(yè)聚焦┃2025智慧礦山技術(shù)創(chuàng)新與產(chǎn)業(yè)發(fā)展論壇(新疆)成功召開
往期特刊
中國(guó)煤科特刊
陜煤集團(tuán)特刊
神東專欄
重大進(jìn)展特刊
露天礦特刊
理事單位特刊
紅柳林煤礦特刊
創(chuàng)新技術(shù)特刊
創(chuàng)刊號(hào)
版權(quán)聲明
本刊對(duì)已出版文章持有電子版、網(wǎng)絡(luò)版及進(jìn)行網(wǎng)絡(luò)技術(shù)交流和與各網(wǎng)絡(luò)數(shù)據(jù)庫合作的權(quán)利,稿酬一次性付清,版權(quán)歸本刊與作者共同所有,如不同意,請(qǐng)?jiān)谕陡鍟r(shí)聲明。
聲明:本文系轉(zhuǎn)載自互聯(lián)網(wǎng),請(qǐng)讀者僅作參考,并自行核實(shí)相關(guān)內(nèi)容。若對(duì)該稿件內(nèi)容有任何疑問或質(zhì)疑,請(qǐng)立即與鐵甲網(wǎng)聯(lián)系,本網(wǎng)將迅速給您回應(yīng)并做處理,再次感謝您的閱讀與關(guān)注。