档案数字化
公司拥有标准化、规范化、专业化的档案数字化团队,可提供对各类文书、图纸、资料、业务档案等纸质、影像档案进行整理分类和数字化加工服务,通过建立图文数据库,对数据进行规范性校验,实现实体档案与电子档案的一一对应关系,最终将档案成果数据与业务系统挂接,形成一个有序结构的档案数据库,及时提供利用,实现信息共享,为未来人工智能及大数据应用打下坚实基础。

1.档案数字化概念和实质
概念:是将传统的纸质档案、图像照片、声像档案和缩微胶片等通过扫描、摄录、采集等手段转化成数字形式的计算机文件的过程。
实质:是档案信息形式的转换,是将现实世界中记录于传统载体的图、文、声、像等档案信息转化为计算机世界中记录于数字载体的数字化信息。

3.档案数字化的实现方式

4.档案数字化的目的
★保护历史档案
★规避安全风险
★缓解库房紧张
★提高利用效率
5.档案数字化的要求
规范性:
★数字化后的档案必须采取国家推荐的文件格式和技术参数标准,以确保数字化信息的交流、共享性。
安全性:
★确保档案原件的安全
★保守档案信息的秘密。
真实性:
★确保档案信息内容的原真性
★技术上优先考虑文件的保真度,力争将失真降低到最小
★避免对档案内容作额外处理
实用性:
★需要用数字化副本加以特别保护的濒危档案
★要考虑拟数字化档案的实际利用率
★确定拟数字化档案的范围时要考虑到网络的共享特点
★原则上 “属于归档范围且应永久或长期保存的、社会利用价值高的档案可列入数字化加工的范围”
效率性:
★要采取最优化的技术方案
★要实现档案数字化工程的专业化和社会化
6.档案数字化的基本流程

1)数字化前处理——对拟扫描档案适当整理,做出标识
★目录数据准备
按照《档案著录规则》等的要求,规范档案中的目录内容。包括确定档案目录的著录项、字段长度和内容要求。对错误或不规范进行修改。
★拆除装订物
★区分扫描件和非扫描件
★页面修整
破损严重、无法直接扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件先进行相应处理(压平或熨平等) 。
★档案整理登记
制作并填写数字化加工过程交接登记表单,详细记录档案整理后每份文件的起始页号和页数。
★装订还原(扫描后的工序)
扫描完成后恢复装订,应注意保持档案的排列顺序不变,做到准确、无遗漏。
2)档案扫描
★确定扫描方式
■根据档案幅面大小选择相应规格的扫描仪
■纸张状况较差,纸张间粘贴较紧,不易分开,过薄、过软或超厚的档案,不宜使用自动进纸扫描,必须改用平板扫描方式。
■大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。
★扫描色差模式
扫描色彩模式一般有黑白二值、灰度、彩色三种:
■页面为黑白两色,并且字迹清晰、不带插图的档案,采用黑白模式扫描;
■页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描;
■页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式扫描。
★扫描分辨率
■扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。
■采用黑白二值、灰度、彩色模式对档案进行扫描时,其分辨率一般均建议选择300dpi,特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。
★扫描登记
★扫描技巧
■较薄纸张(如信纸、便笺纸):较薄纸张容易破损、透光,可在纸张下加入白色衬纸,扫描仪调整为厚纸模式,并用中、低速扫描。
■破损纸张:如一般破损,将破损纸张夹入透明塑料薄膜内,扫描仪调整为厚纸模式,并用中、低速扫描。如破损严重且极不平整,则采用平板扫描方式。
■底灰较深(如草浆纸、油印纸):如采用黑白二值扫描应将扫描对比度及亮度适当调低,调节效果不理想则采用灰度扫描。
■字迹较浅(如铅笔字迹):调整扫描仪黑白扫描的临界值(阈值),尽量拉大字迹与原稿的反差后进行扫描:如效果不理想,则采用灰度模式扫描。
3)图像处理
★图像数据质量检查
■对图像偏斜度、清晰度、失真度等进行检查。发现不符合图像质量要求时,重新进行图像的处理。
■由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描
■发现文件漏扫时,及时补扫并正确插入图像
■发现扫描图像的排列顺序与档案原件不一致时,及时进行调整
★纠偏
■对方向不正确的图像进行旋转还原,以符合阅读习惯。
■对出现偏斜的图像进行纠偏处理,以达到视觉上基本不感觉偏斜为准。
★去污去黑斑
■对图像页面中出现的影响图像质量的杂质,如黑点、黑线、黑框、黑边等进行去污处理。
■去污处理应遵循在不影响可懂度的前提下展现档案原貌的原则。
★图像拼接
■对大幅面档案进行分区扫描形成的多幅图像进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性。
★裁边处理
■采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
4)图像存储
★选择存储格式
■采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储。
■采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储。
■存储时压缩率的选择,应以保证扫描的图像清晰可读的前提下,尽量减小存储容量为准则。
■提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。
★命名图像文件
■纸质档案目录数据库中的每一份文件,都有一个与之相对应的唯一档号,以该档号为这份文件扫描后的图像文件命名。
■多页文件采用该档号建立相应文件夹,按页码顺序对图像文件命名。
5)数据挂接
★汇总挂接
■目录数据库与图像数据库经质检确认为“合格”后,通过网络加载到数据服务器端汇总。
★数据关联
■以目录数据库为依据,将每一份纸质档案文件扫描所得的一个或多个图像存储为一份图像文件。
■将图像文件存储到相应文件夹时核查每一份图像文件的名称与档案目录数据库中该份文件的档号是否相同;图像文件的页数与档案目录数据库中该份文件的页数是否一致;图像文件的总数与目录数据库中文件的总数是否相同等。
■通过每份图像文件的文件名与目录数据库中该份文件档号的一致性和唯一性,建立起一一对应关系。
■通过编制程序或借助相应软件,实现目录数据对相关联的数字图像的自动搜索,加入对应的电子地址信息等,实现批量、快速挂接。
★交接登记
6)数据验收
■以抽检的方式检查已完成数字化转换的所有数据,包括目录数据库、图像文件及数据挂接的总体质量。
■一个全宗的档案,数据验收时抽检的比率不得低于5%。
■目录数据库与图像文件挂接错误,或目录数据库、图像文件之一出现不完整、不清晰、有错误等质量问题时,抽检标记为“不合格”,一个全宗的档案,数字化转换质量抽检的合格率达到95%以上(含95%)时,给予以验收“通过”
合格率=抽检合格的文件数/抽检文件总数×100%
7)数据备份
■经验收合格的完整数据应及时进行备份。
■备份载体的选择应多样化,可采用在线、离线相结合的方式多套备份,并注意异地保存。
■备份数据应进行检验。
■数据备份后应在相应的备份介质上做好标签,以便查找和管理。