來源: 樂山全新媒體公司
廣告:
一、整理登記
歷史報紙數(shù)字化的各個環(huán)節(jié)均應進行詳細的登記,并及時整理、匯總,裝訂成冊,在數(shù)字化工作完成的同時建立起完整、規(guī)范的記錄。
二、掃描流程
歷史報紙數(shù)字化的基本環(huán)節(jié)主要包括:報紙整理、報紙掃描、圖像處理、圖像存儲、裝訂、數(shù)據(jù)掛接等。
三、目錄數(shù)據(jù)準備
規(guī)范報紙中的目錄內(nèi)容。包括確定報紙目錄的著錄項、字段長度和內(nèi)容要求。如有錯誤或不規(guī)范的期號、正標、副標、正文、繁體、豎排、圖片、起止版號和版數(shù)等,應進行修改。
四、拆除裝訂
在裝訂物影響掃描工作進行的檔案,應拆除裝訂物。拆除裝訂物時應注意保護報紙不受損害,不允許裁切報紙紙張。
五、報紙掃描
根據(jù)報紙幅面的大小(四開、對開等)選擇相應規(guī)格的掃描儀或?qū)I(yè)掃描儀進行掃描。為提升掃描效率,對開報紙采用超寬幅掃描儀進行掃描,可同時對4個版的對開報或者8個版的四開報進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。
六、掃描登記
填寫歷史報紙數(shù)字化轉(zhuǎn)換過程交接登記表單,登記掃描的發(fā)行時間、發(fā)布期號,核對每份報紙的實際掃描版數(shù)與報紙整理時填寫的報紙版數(shù)是否一致,不一致時應注明具體原因和處理方法。
七、圖像處理
圖像數(shù)據(jù)質(zhì)量檢查、糾偏、去污、裁邊處理、圖像存儲、掃描件的命名、裝訂。
八、版面OCR識別提取實施方案
由于掃描后的報刊文件是基于位圖的結(jié)構(gòu),尤其是老舊鉛字印刷的報紙,其識別率極低。版面文章原則上進行全識別提取,項目關(guān)鍵點如下:
(1)遇到繁體中文應簡化后提。
(2)標題識別要分兼題、標題、副標題進行分類提。
(3)文章遇到從右往左排版的應正確識別提。
(4)提取過程中遇到明顯錯別字的應改錯后提。
(5)新聞圖片單獨提取且另存JPG文件便于錄入;
(6)識別過程中按單個段落和單個文章進行識別,識別后記錄進WPS文檔進行管理,每期報紙進行一個文檔管理。
廣告: