久久国产精品亚洲艾草网_黄色视频在线免费观看_国产强伦姧在线观看_无码国产69精品久久久久网站

關(guān)于歷史報紙數(shù)字化的生產(chǎn)工藝要求及OCR識別方案

來源: 樂山全新媒體公司

廣告:

一、整理登記

歷史報紙數(shù)字化的各個環(huán)節(jié)均應進行詳細的登記,并及時整理、匯總,裝訂成冊,在數(shù)字化工作完成的同時建立起完整、規(guī)范的記錄。

二、掃描流程

歷史報紙數(shù)字化的基本環(huán)節(jié)主要包括:報紙整理、報紙掃描、圖像處理、圖像存儲、裝訂、數(shù)據(jù)掛接等。

三、目錄數(shù)據(jù)準備

規(guī)范報紙中的目錄內(nèi)容。包括確定報紙目錄的著錄項、字段長度和內(nèi)容要求。如有錯誤或不規(guī)范的期號、正標、副標、正文、繁體、豎排、圖片、起止版號和版數(shù)等,應進行修改。

四、拆除裝訂

在裝訂物影響掃描工作進行的檔案,應拆除裝訂物。拆除裝訂物時應注意保護報紙不受損害,不允許裁切報紙紙張。

五、報紙掃描

根據(jù)報紙幅面的大小(四開、對開等)選擇相應規(guī)格的掃描儀或?qū)I(yè)掃描儀進行掃描。為提升掃描效率,對開報紙采用超寬幅掃描儀進行掃描,可同時對4個版的對開報或者8個版的四開報進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。

六、掃描登記

填寫歷史報紙數(shù)字化轉(zhuǎn)換過程交接登記表單,登記掃描的發(fā)行時間、發(fā)布期號,核對每份報紙的實際掃描版數(shù)與報紙整理時填寫的報紙版數(shù)是否一致,不一致時應注明具體原因和處理方法。

七、圖像處理

圖像數(shù)據(jù)質(zhì)量檢查、糾偏、去污、裁邊處理、圖像存儲、掃描件的命名、裝訂。

八、版面OCR識別提取實施方案

由于掃描后的報刊文件是基于位圖的結(jié)構(gòu),尤其是老舊鉛字印刷的報紙,其識別率極低。版面文章原則上進行全識別提取,項目關(guān)鍵點如下:

(1)遇到繁體中文應簡化后提。

(2)標題識別要分兼題、標題、副標題進行分類提。

(3)文章遇到從右往左排版的應正確識別提。

(4)提取過程中遇到明顯錯別字的應改錯后提。

(5)新聞圖片單獨提取且另存JPG文件便于錄入;

(6)識別過程中按單個段落和單個文章進行識別,識別后記錄進WPS文檔進行管理,每期報紙進行一個文檔管理。

廣告:

相關(guān)內(nèi)容

編輯:Admin 時間:2024/1/26 14:09:51 閱覽:129   返回    
歷史報紙數(shù)字化
OCR識別
掃描關(guān)注53BK報刊官網(wǎng)
掃描關(guān)注閱速公司微信