中文字 OCR 光學辨識免費線上工具網站「OnlineOcr」與「NewOcr」測試介紹

OCR,Optical Character Recognition 的首字縮寫,指的是光學字元辨識的意思,這項技術是用來將一張圖片中的文字,透過光學字元的辨識演算法,轉譯成電腦能加以編輯的文字字元。

今天要和大家介紹的不是一般的 OCR 軟體,而是在網路上免費提供光學字元辨識服務的工具網站。文中還會提供影像範本以及辨識後的分析來跟大家一併說明,讓大家自行評估是否要使用這類服務(還是自己慢慢硬啃)。

學生時代對於這類OCR軟體一直有著高度需求,尤其在網路還沒有這麼發達的那個時候,查了資料要做報告只能自己一個字一個字的Keyin進電腦,非常可以磨砥我的耐心。

後來有聰明的學生(羞舉手)跑去買了一台掃描器,將書面資料掃進電腦,再用當時也是冷門的OCR辨識軟體將文字影像轉為文件檔案,讓做報告的速度變得非常迅速。

現在更拜網路科技發達之賜,有些網站直接在線上提供免費的光學文字辨識服務。不過很可惜,這些服務大多是由外國人提供,對於中文字的辨識率,我原本並沒有太多期待。

在試用過下面兩間線上知名的免費光學文字辨識網站後,覺得還是有一定辨識功力,特別介紹給大家認識,你們可以參考我提供的影像範本與辨識結果來加以評估是否要使用這些服務。

OCR中文字辨識工具網站

OnlineOcr

請參考下圖一所示的「OnlineOcr.Net[i]」網站,操作步驟包括:

  1. 點擊「Select File」按鈕,直接上傳你電腦中預備好的圖片;
  2. 選擇翻譯語言和輸出格式,例如「Chinese Traditional」與「Text Plain( txt)」;
  3. 點擊「CONVERT」按鈕開始進行轉換,最後會輸出一篇文字編輯器(例如小作家)可開啟的中文文字檔案。
圖一,OnlineOCR 線上頁面。

NewOcr

請參考下圖二所示的「NewOcr.com[ii]」網站,操作步驟包括:

  1. 點擊「選擇檔案(Select File)」按鈕,從電腦中選擇想要進行文字辨識的圖片(或是輸入圖片所在的網址);
  2. 點擊「Upload」按鈕,上傳你選好的圖片就能開始進行辨識。
圖二,NewOCR 線上頁面。

另外,請參考下圖三,NewOcr 還提供多種進階設定,可選擇你打算辨識的語言(可複選),例如「English」和「Chinese Tradition」兩種,以及圖片的選轉角度(非必須)與是否要分析文件排版格式,並進行相對應的切割等運算等服務。

圖三,NewOCR 設定頁面。

影像樣本的實際辨識結果與討論

這次會寫這篇文章的原因,是家人請我幫忙複打一份太極武術《修羅扇》的分解動作指令,懶人如我者當然就想到可以用OCR軟體,不過這次就改用線上辨識服務來做測試囉。

下圖四是從太極拳教練手中拿到的一份《修羅扇》的分解動作指令,可能因為列印太多次的關係,文字本身的解析度不是那麼清晰。

圖四,辨識樣本:修羅扇。

經過線上 OCR 文字辨識轉換後,可得到如下的結果:

OnlineOcr.Net 的辨識結果

木蘭點兵(南) 回頭一瞥(西南) 百步穿揚(南) 立斬蛟龍(南)· 撥雲見日(南)∼“ 、甬海翻騰(南), 夜又探海(南) 轉斬蛟龍(北) ) 鳳凰轉簡禾(面南) 轉身、一斗劈(北)· 孔雀展姿(北)· 、甬袒乾坤(北)兩 海底撈月(北)守 反點以么星(北) 、扇海撥雲(北), 倦鳥歸林〔北). 回一叩一棒(正斗閑)
雲龍單頭(柬南)”t一· 左右開弓(西北。斗果南)
聶哄防各L,心/∼斗私丰幻j:、‘ 斤廾斗〞‘n。一、丫‘‘口劉州州、〝.乏一 吋‘
童子并佛(南) 桔街盤根(南) 童子并佛(南) 蝴蝶穿花(南) 蜻蜓點水(淌州 挑瓏入實由 盤.根錯節(南 回頭一(棒(凍佻 ‘可鶴、亮翅(東丈
上香一
并沐
青龍.人調(一沐
J匕二三巳取匕
化常訕‘、-‘一、‘’ 痲。‘絕二‘,二婦寫· 。計p.-·_一、『一‘-. “必-4一‘, v‘一’必 ■, -一界’、 叔江d‘織化計。紛.‘。
r;’一客-
(一.-。一 {-‘I添.一
寧馴 一方絮
、∼。、 乍,’ ‘‘〕。一e
響,”‘ r一L k’
、一迸‘ 〞二”,
→才几 “7_i方二 訪k鳥點〔必乙〞騙鄴j,,江為向

∼、細‘’ . 華O斗嗎

NewOcr.com 的辨識結果:

木蘭黠兵(南)
回頭一瞥(西南)
百步穿揚(南了
立斬蛟龍(南丫
撥雲見旦南了
扇海翻騰(南)威
夜叉探海(南)
轉斬蛟嚨(北)
鳳凰轉巢(面南)
轉身立 劈(北).
〝孔雀展姿(北丫
扇裡乾坤(北)
海‵底撈月(北)e
反黠金星(北)
扇海撥雲(北富
倦烏歸林(北)
雲龍罩頭勺果南》細質
左右開弓〈西北桌郝)
雁落平沙(束南) 〝嘉
童子 拜佛(南)” 了 一 柑
枯樹盤根(南N嘶腳薑
量子拜佛T巴

我們可以從上面兩個結果看出來,兩個網站的辨識結果各有有缺點。在文字的正確辨識率上來説,OnlineOcr 以極小的幅度領先 NewOcrt,但是到後半段卻又通通變成亂碼,可見得去除背景雜訊的技術還有待加強,這對實際應用而言還是有相當不利。

另外,我用小畫家做了一張高畫質的文字影像,這次再來看看辨識度會不會比較好一點。如下圖五所示,我選用的文章是諸葛亮的前出師表的前段。

圖五,辨識樣本:出師表。

OnlineOcr.net 辨識結果:

臣亮言:先帝創業未半,而中道崩姐;今天下三分,益州疲敝,此誠危急存亡之秋也。然侍衛之臣,不懈於 內;忠志之士,息身於外者:蓋追先帝之殊遇,欲報之於陛下也。誠宜開張聖聽,以光先帝遺德,恢弘志士 之氣;不宜妄自菲薄,引喻失義,以塞忠諫之路也。宮中府中,俱為一體;險罰臧否,不宜異同:若有作奸 犯科,及為忠善者,宜付有司,論其刑賞,以昭陛下平明之治;不宜偏私,使內外異法也。侍中·侍郎郭攸 之·費依·董允等,此皆良實,志慮忠純,是以先帝簡拔以遺陛下:愚以為宮中之事,事無大小,悉以咨 之,然後施行,必得裨補闕漏,有所廣益。將軍向寵,性行淑均,曉暢軍事,試用之於昔日,先帝稱之日 ,匕“,是以眾議舉寵為督:愚以為營中之事,事無大小,悉以咨之,必能使行陣和穆,優劣得所也。親賢 臣,遠小人,此先漢所以興隆也;親小人,遠賢臣,此後漢所以傾頹也。先帝在時,每與臣論此事,未嘗不 嘆息痛恨於桓、靈也!侍中·尚書·長史·參軍,此悉貞亮死節之臣也,願陛下親之·信之,則漢室之隆, 可計日而待也。

NewOcr.com 辨識結果:

臣亮言:先帝創業未半’而中逋崩姐;含夭下三分’益州疲敞,此誠危急存亡之秋也。然侍衛之臣,不懈於
內;忠志之士,忘身於外者:蓋追先帝之殊遇,谷欠報之於陛下也。誠宣開張聖聽,以光先帝遣德,恢弘志士
之氣;不宣妄自菲蓮,引喻失義,以塞忠諫之路也。宮中府中 ,俱為一體;B步罰臧否,不宣異同:若有作奸
犯科,及為忠善者’宣付有司 ,論真刑賞,以昭陛下平明之治;不宣偏私’使內外異法也。侍中`侍郎郭攸
之`賈依`菫允等,此皆良貴,志慮忠純’是以先帝簡拔以遣陛下:愚以為宮中之辜,辜無大小,悉以彗
之,然後施行,必得裨補闕漏,有所蜃益。將軍向寵,性行淑均 ,曉暢軍辜’試用之於昔日 ,先帝稱之日

從上面兩個結果來看,如果是文字清晰度夠高的影像,OnlineOcr 的辨識正確率會大幅度提高,而 NewOcr 的辨識率和前一個測試差不多。由此可見背景的乾淨度和文字清晰度對於 OnlineOcr 有很大幅度的影響。

總結幾項大家可以注意的細節,讓文字辨識效率可以大幅度提升,包括:

  • 影像內容的解析度越高,文字辨識效果越好(至於畫質好壞對於英文字的辨識率而言是影響相對較小的)。
  • 掃描或拍照時要特別注意,文字的角度是否偏移,影像邊緣是否歪斜。
  • 原始範本的文字背景是否足夠乾淨,建議可以先用影像處理程式清除雜亂背景。

經過一段時間的測試後,關於最前面提到我會尋找這類OCR文字辨識軟體線上網站的原因,就是那份修羅扇的文件,我還是決定自己親手打比較快(啪啪啪啪啪啪啪)。

題外話,學生時代為了交報告特別買了一台掃瞄器[iii],隨機器附贈一套專門為中文字辨識開發的軟體「丹青文件辨識系統[iii]」不過那個年代的辨識軟體主要還是以簡單線條組成的英文字的辨識能力最高。這讓我一方面欣賞具有崇高藝術價值的中文字,另一方面又讓我討厭線條優美到無法被輕易辨識的中文字。這種又愛又恨的心情是複雜的。

後來就如同大家知道的,網路科技開始被廣泛運用,大家都能輕易從網路上 抄襲 找到大量的文章。這有好處也有壞處,好處是文字被大量的活用,知識的進展是以幾何速度擴散;壞處是學生的思辨與寫作能力越來越差。

我在大學擔任研究所助教時,學生交過來的報告只要看上幾眼就差不多能知道是不是他自己寫的,之後再擷取幾段上網搜尋,八九不離十就能找到被抄襲的作品。對於這些大量抄襲文章,連重新整理、歸納都懶的同學(一個班級最少也有二成以上的機率),我給的分數一定難看(好好教授還得幫忙拉分數)─── 這個助教討人厭。

延伸閱讀
  1. OnLine OCR
  2. New OCR
  3. 產品參考:文件、書本推薦用掃瞄器
  4. 軟體下載:丹青文件辨識系統

分享您的想法

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *