电子文件归档格式思考
档案信息资源是信息资源的基础性资源,构成档案信息资源的是一个一个的文件,其类型可分为文本文件、数据库文件、图形、图像文件和视频文件等。这些种类的文件又有多种不同的格式,仅文本型文件就有诸如.doc、.txt、.pdf等格式。多种格式的存在对各个立档单位电子文件的归档工作造成了很多的困扰,也使档案馆对所接收电子文件的长期可读性心存疑虑。本文仅就文本型文件的归档格式进行探讨。
一、国内主要使用文本型电子文件的格式
目前,我国市场上存在多种办公软件,国外的如微软Office、Sun的StarSuite、Corel的WordPerfect Office等,国内的如金山WPS、红旗中文2000的RedOffice等,它们生成的文档格式各不相同。微软Office的格式是.doc、.xsl、.ppt,StarSuite的格式是.odf,金山WPS的格式是.wps 、RedOffice的格式是.sxw。由于微软在操作系统上的垄断地位,微软Office在市场上也处于的优势地位,据天极网对2005年国内办公软件市场主要产品的调查结果,微软Office市场占有率达到71.22%,金山WPS为14.08%;WordPerfect Office为4.58%;StarSuite为3.15%。另据北京市档案局2006年9月对市属单位电子文件归档格式进行的调查来看,采用 DOC格式归档的为41.67%,WPS格式为5%,XML格式为20%,TXT格式为20%。从调查的情况来看,目前文本型文件归档时多种格式并存,且DOC格式占有较大比例,WPS等格式所占比例较小。然而,国标《电子文件归档与管理规范》(GB/T18894-2002)推荐的归档文件格式为XML、RTF和TXT三种格式,占有率较高DOC格式并不是国标推荐的格式。
二、国内外文本型电子文件格式发展的最新状况
随着可扩展标记语言XML在世界范围内被广泛关注,特别是自1998年2月XML被W3C推荐标准后,许多办公软件的厂商都推出了基于XML的办公软件,并采用了一些新的文档的格式。以下就基于XML的ODF、OpenXML、UOF三种格式和基于二进制方式存储的PDF格式作简要的介绍。
(一)ODF(Open Document Format)格式
ODF格式于2006年5月正式被国际标准化组织审核通过成为国际标准格式,标准号为ISO/IEC 26300。ODF格式由OASIS负责制定,它是一种开放格式,可以让不同程序、平台之间都自由的交换文件而不需要理会是何种应用程序所产生的文件。目前,ODF文档格式受到了很多政府机构的青睐,例如美国马萨诸塞州州政府、德国慕尼黑市政府、新加坡国防部、法国财政部等就率先宣布支持这种格式。
ODF文档是基于XML语言的纯文本文档。ODF格式的文本文档的扩展名为?鄢.odt。一个ODF文档实质上是一个打包的文件,并且通常都经过了zip格式的压缩。我们完全可以用现有的任意一款压缩软件将ODF文件解压。
以下软件支持ODF格式:Sun 的StarSuite, Corel的 WordPerfect, IBM 的Workplace,以及国内红旗中文2000的RedOffice3.0等。微软虽然不直接支持ODF格式,但近来微软推出了Office Open XML转译器(Open XML Translator),使用者可将Office文件转换成ODF格式的文件。为了在全球推广ODF文档格式, Sun、IBM等公司创建的ODF联盟。 2006年7月,世界软件巨头Google宣布支持ODF格式并加入该联盟,增强了ODF联盟的力量。目前Google的在线文书处理程序Writely已经支持ODF格式。
(二)Open XML Format格式
作为全球办公软件提供商,2007 Office的正式版本已于2007年1月30日向全球同步发售。除了功能上的提升以外,2007 Office 最引人瞩目的是采用Open XML这一新的文档格式,新格式文件扩展名分别是.docx、.xlsx和.pptx。当前支持Open XML Format的软件只有微软2007 Office。长期以来,以往由于微软在市场上极高的占有率,使它的文件格式成为事实上的工业标准,我国国内软件厂商虽然有自己的格式,但其格式往往须和微软的格式兼容。对以往的.doc、.xls以及.ppt格式,微软一直没有公开其技术,并希望借助这种方式持续保持其竞争优势。但是,现在这种形势发生了微妙的变化。由于ODF成为国际标准,是一种公开的文档格式,得到了一些政府的公开支持,微软封闭的格式受到了很大的压力。为了改变这种状况,微软已将其新的格式Open XML Format提交给国际标准组织,希望成为国际标准,但目前尚未被国际标准组织批准。
(三)UOF格式
UOF格式,中文名称为“标文通”,英文全称为“Unified Office document Format”,意思是统一的文档格式。不要以为这是一个舶来品,该格式由国家电子政务总体组所属的中文办公软件基础标准工作组组织制订,具有完全的自主知识产权。
UOF规定了包括文字处理、电子表格和演示文档应用的办公软件文档的结构描述形式,支持不同办公软件之间文档的兼容和互换。
……
(四)PDF格式
与以上三种基于XML的格式不同,PDF格式是一种以二进制方式储存的格式。PDF格式,英文全称“Portable Document Format”,意思是便携式文件格式。它是美国的Adobe公司于1993年开发的一种电子文件格式。PDF格式有很多特点,如它不依赖计算机的硬件配置、操作系统和创建文件时的应用程序,能忠实地再现原文,还具有文字检索和文件审阅等功能,所以PDF格式在国际上被迅速推广应用。据Adobe称,目前PDF文档已经占据了互联网上所有内容的10%。PDF格式已于2005年被国际标准化组织审核通过成为国际标准格式,标准号为ISO 19005-1:2005。
PDF格式和XML等结构化的文件格式一样,包含有关键字,分隔符,数据等等。不同的是PDF文件是按照二进制流的方式保存的, XML文件则是文本方式保存的,当你打开一个XML文件就能知道所有显示的文字,而PDF文件不能用文本方式打开。
目前在国际的学术界与高科技业界,PDF格式的应用非常广泛。此外,在各国政府机构的电子政务领域中,PDF格式也被广泛应用,包括美国政府、英国政府、德国政府、新加坡政府、台湾政府、香港 政府、印度、澳大利亚等等。另外一些政府机构也在大量使用PDF,仅在美国的就有:美国联邦法院、美国太空总署、美国药物食品管理局(FDA)、美国35个州政府财税局、美国邮政服务、疾病控制与预防中心、小型企业管理局、人口普查局等等。在我国台湾的“公文电子交换推广计划”中也要求各级机关、学校、事业机构等全面实施公文电子交换,并使用ACROBAT软件。
制作PDF文件的“官方”软件为Adobe公司的Adobe Acrobat。微软的2007 Office和Google的Writely都可以将文档直接保存为PDF格式。其他软件如Go2PDF、PDFFactory Pro、WIN2PDF等也可将文档转换为PDF格式。PDF文件也可由国产软件方正Apabi Reader打开。我国金山公司WPS Office 2005办公软件宣称可直接将文件保存为PDF格式。
三、面对纷繁复杂的文档格式,档案行政管理部门应采取的对策
随着信息化建设的发展,已有的文件格式很多,新的文件格式也不断产生出来。档案部门作为永久保存电子文件的基地,应采取各种措施积极应对这种挑战。
(一)档案部门应积极参与我国文档格式标准的制定
制定一个统一的文本型电子文件归档格式标准,对我国的档案信息化建设极为重要。我国已经开始着手制定《基于XML的电子公文格式规范》,并于2005年发布了国家标准(GB/T19667-2005),该规范包括七个部分,即总则、公文体、显现、办理、交换、归档、安全等,目前正式出台了总则和公文体两个部分,其余包括归档在内的五个部分尚未出台。令人欣慰的是,归档的部分是档案部门承担的。