Форматы электронных документов

«Прежде всего, отметим, что у документов различают форматы физические и технические. Под физическим форматом имеется в виду форма существования документа в природе: бумажный, электронный и др. Под техническим форматом в случае с электронными документами подразумевается формат файла электронного документа». [17, с.59].

Существует множество различных форматов файлов. В целом, их можно разделить на «однопрограммные», то есть контролируемые и поддерживаемые только одним программным разработчиком, и «многопрограммные», которые поддерживаются несколькими разработчиками и могут обрабатываться различными программами.

Перечислим основные форматы (см. таблицу 1):

  • 1. Текстовые форматы. Они чаще всего создаются при помощи текстовых процессоров. Наиболее распространенными текстовыми форматами являются: однопрограммные форматы Microsoft Word и WordPerfect.; формат RTF (Rich Text Format), который поддерживается различными программными приложениями и при этом сохраняет заданное форматирование текста; формат PDF (Portable Document Format), который содержит изображение страницы, включающее текст и графику. Файлы в формате PDF могут быть прочитаны при помощи различных программ, предназначенных только для чтения файлов, однако создаются только при помощи программы Adobe Acrobat.
  • 2. Графические форматы. Они хранят изображение (например, фотографию, рисунок) и делятся на два основных типа:
    • - векторные форматы, которые хранят изображение как набор геометрических фигур. Среди них наиболее распространены:
    • - формат DXF (Drawing Interchange Format), широко применяемый в программах компьютерного дизайна, используемых инженерами, архитекторами,
    • - формат ЕРS (Encapsulated PostScropt), широко используемый в настольных издательских системах,
    • - формат CGM (Computer Graphics Metafile), широко применяемый во многих графических редакторах (например, в редакторе Photoshop).
    • - растровые форматы, которые хранят изображение как набор точек - пикселей. При изменении масштаба изображения растровая графика получает искажения. Среди растровых форматов наиболее распространены:
    • - формат ВМР (Bitmap) - относительно низкокачественный формат, чаще всего используемый в текстовых процессорах;
    • - формат TIFF (Tagged Image File Format), широко применяемый во многих программных приложениях;
    • - формат GIF (Graphics interchange Format), широко используемый в программах, предназначенных для Интернета.
  • 3. Форматы баз данных создаются при помощи специальных программных средств - систем управления базами данных (СУБД). СУБД позволяет устанавливать связи между элементами информации базы данных, выполнять различные операции с информацией базы данных (поиск, индексирование, выполнение различных математических операций, генерация отчетов и справок и т.д.). Примерами СУБД являются Microsoft SQL Server, Oracle, MySQL, IBM DB2, Sybase и др.

Например, база данных о покупателях может содержать поля с именами покупателей, адресами и сведениями о покупках. Эти поля могут быть организованы в отдельные таблицы (например, одна таблица для всех полей с именами покупателей).

Базы данных можно конвертировать в текстовый формат, но при этом будут утрачены связи между полями и таблицами (например, может получиться десять страниц имен, десять страниц адресов и тысяча страниц сведений о покупках, то есть бессвязная информация).

4. Форматы электронных таблиц. Файлы в формате электронных таблиц хранят в ячейках числа и взаимосвязи между этими числами.

Например, одна ячейка может содержать формулу, которая суммирует данные двух других ячеек. Как и файлы баз данных, файлы электронных таблиц обычно имеют формат той программы, при помощи которой созданы. Некоторые программы могут импортировать и экспортировать данные других источников, в том числе программ, предназначенных для такого обмена данными (например, формат DIF (Data Interchange Format)). Файлы электронных таблиц можно преобразовать в текстовые файлы, но значения и взаимосвязи между числами при этом будут утрачены.

  • 5. Видео- и аудио-форматы. Эти форматы содержат движущиеся изображения (например, цифровое видео, анимацию) и звуковые данные, которые чаще всего создаются и просматриваются при помощи соответствующих программ и хранятся в однопрограммном формате. Наиболее используемыми из них являются форматы QuickTime и MPEG (Motion Picture Experts Group)
  • 6. Языки разметки, также называемые форматами разметки, содержат встроенные инструкции по отображению и понятности содержания файла. К ним относятся:
    • · SGML (Standart Generalized Markup Language), который используется во многих странах мира в государственных органах и является международным стандартом;
    • · HTML (Hypertext Markup Language), который используется для отображения почти всей информации в сети WorldWideWeb;
    • · XML (Extensible Markup language) - относительно простой язык, основанный на SGML - и получивший популярность при управлении информацией и обмене ею.

Таблица 1. Наиболее распространенные форматы файлов.

Тип формата

Основные форматы

Примеры файлов

Описание

Текстовые форматы

Векторная графика

PDF, RTF, TXT, однопрограммные форматы (например, Microsoft Word, Word Perfect)

DXF, EPS, CGM

Корреспонденция, отчёты, записки, сообщения электронной почты, сохранённые в текстовом формате.

Архитектурные планы, сложные иллюстрации

Созданные или сохраненные в виде текста (могут содержать и графику)

Хранят изображение в виде геометрических фигур

Растровая графика

TIFF, BMP, GIF, JPEG

Графика веб-страниц, простые иллюстрации, фотографии

Хранят изображение как набор пикселей. При изменении масштаба изображение искажается

Файлы баз данных

Однопрограммные форматы

Адресные книги, списки рассылки

Создаются в системах управления базами данных

Форматы электронных таблиц

Видео- и аудио- форматы

Однопрограммные форматы, DIF

QuickTime, MPEG

Финансовый анализ, статистические калькуляции

Короткие видеозаписи, показываемые на веб-сайте, записи интервью

Хранят числовые значения и калькуляции

Содержат движущиеся изображения и звук

Языки разметки

SGML, HTML, XML

Текст и графика, помещённые на веб-сайте

Содержат встроенные инструкции по отображению и понятности содержания файла или множества файлов

«Каждый из форматов файлов имеет свои достоинства и недостатки при использовании в документационном обеспечении управления. Например, текстовые форматы (World Perfect, Microsoft Word, RTF и др.) удобны для проведения контекстного поиска по документам в базе данных, а графические форматы (РDF, TIFF и др.) позволяют получить при сканировании изображение документа со всеми его внешними особенностями, хранить документы в том же виде, что и на бумаге, со всеми подписями и визами.

Формат MS Word, например, весьма удобен при редактировании документа и групповой работе с ним, однако файл MS Word хранит много скрытой информации (прежде всего, о сделанных в файле изменениях) и, следовательно, весьма небезопасен с точки зрения утечки служебной информации. В ряде случаев, таких, например, как коммерческое предложение или проект контракта, скрытая информация позволяет установить, каковы были исходные предположения, кто оказал на текст наибольшее влияние. При групповой подготовке документа анализ правки дает возможность узнать не только фамилии людей, ее сделавших, но и кто какой именно вклад внес в итоговый вариант». [15, с.95-96].

«В России федеральные органы исполнительной власти самостоятельно устанавливают форматы для определенных видов электронных документов, используемых при взаимодействии с другими организациями и гражданами. Например, согласно требованиям Федеральной комиссии по рынку ценных бумаг (ныне - Федеральной службы по финансовым рынкам), файлы определенных видов документов должны быть представлены в формате RTF. Минфином России, в свою очередь, установлено, что документы статистической отчетности представляются страховыми (страховыми медицинскими) организациями в виде набора текстовых файлов в формате XML» [7, с.31].

«Правительство Москвы установило основные форматы электронных документов, используемые в электронном документообороте». [19, с.50].

Электронная копия бумажного документа, предназначенная для подробного воспроизведения графического образа, создается с использованием растровых графических форматов (BMP, JPEG, GIF или PNG) или гибридных текстово-растровых форматов (PDF, DjVu).

Электронный оригинал, изготовленный полуавтоматизированным или автоматизированным образом, предполагающий сохранение графического оформления документа с возможностью форматирования текста и внедрения графических элементов, создается с использованием форматов PDF, DOC, RTF, HTML.

Если при использовании электронного сообщения требуется обеспечить поиск по содержательной части по ключевым словам, то электронная копия бумажного документа, содержащая информацию, предназначенную для распознавания текста и сохранения в текстовом формате, создается в формате с разметкой текста (PDF, DjVu, DOC, RTF, HTML) или простом текстовом формате (ТХТ).

Электронный оригинал, изготовленный полуавтоматизированным или автоматизированным образом, предполагающий необходимость автоматизированной интеграции информации, создается в формате файла XML.

Чем примечателен формат XML? Расширяемый язык разметки (Extensible Markup Language) содержит в себе не только данные, но и несет информацию, описывающую эти данные. Он применим к любому компьютерному приложению, независим от технического обеспечения и операционных систем и позволяет передавать большие объемы информации без необходимости трудоемкого преобразования структур данных.

Предшественниками XML являются стандартный общий язык разметки SGML, который был утвержден Международной организацией по стандартизации в качестве стандарта еще в 1980-х годах, и его упрощенная версия - гипертекстовый язык разметки HTML.

Формат XML принят органами стандартизации Интернет-сообщества в лице консорциума World Wide Web и организации UDDI.org. В настоящее время компании Microsoft, IBM, Oracle, а также ряд небольших фирм по производству программного обеспечения оперативно переключились на использование XML в своей продукции и практически реализуют идею стандартизации форматов документов на основе XML.

Формат PDF, созданный фирмой Adobe Systems Inc., весьма популярен при обмене документами и широко используется для документов сети Интернет, потому что он позволяет сохранить оригинальный внешний вид документов и затрудняет внесение изменений в документ. По оценке компании Adobe, уже полмиллиарда людей загрузили ее бесплатную программу просмотра PDF-файлов, многие предприятия выбрали данный формат в качестве стандарта для передачи и хранения документов, а немало независимых разработчиков предлагают продукты, поддерживающие PDF, причем некоторые бесплатно.

Однако компания Adobe не несет обязательств и в будущем предоставлять бесплатный доступ к своим программам. Более того, в новых версиях программ Adobe зачастую неправильно представляются файлы предыдущих версий. Вот почему появилась модифицированная версия формата PDF, названная PDF-Archive (PDF-А). Она рассматривается за рубежом в качестве одного из двух основных форматов, которые могут в будущем использоваться для архивного хранения электронных документов. Вторым форматом является рассмотренный выше XML.

Формат PDF-А, как и XML, имеет свои преимущества и недостатки при архивном хранении электронных документов. В частности, формат PDF-А особенно удобен для архивного хранения электронных документов потому, что сохраняет внешний вид оригинального бумажного документа. Ею удобство подтвердил опыт судебных дел по двум крупнейшим банкротствам в истории США - корпорации Enron и компании Global Crossing. Они создали огромное количество документов в формате PDF, и перед федеральными судебными органами встала задача по обеспечению сохранности и архивному хранению этих документов. Это во многом послужило импульсом к разработке проекта международного стандарта по архивированию PDF-документов.

Однако возможности использования указанного формата в электронных архивах ограничены: например, формат PDF-А не подходит для архивного хранения аудиовизуальных документов.

«Следует отметить, что ни один из форматов файлов электронных документов не может считаться универсальным для длительного архивного хранения, поскольку довольно быстро меняются техника, технологии и программное обеспечение. Уже сегодня непросто воспроизводить документы, созданные в текстовых процессорах AmiPro, Word Perfect на современном оборудовании» [10, с.32]. Легко ли будет, например, использовать архивный документ в формате MS Word 97 лет через 10-15?

Скорее всего, разнообразие форматов будет сохранено. Поэтому архивные службы разрабатывают нормативные условия для архивного хранения электронных документов различных форматов, прежде всего, наиболее распространенных PDF

Тем не менее, в настоящее время большие надежды связываются с использованием формата XML в качестве стандартного для обмена электронными документами в различных сферах деятельности, особенно, в сфере государственного управления.

Из всего вышесказанного следует, что электронный документ имеет разнообразие форматов, но ни один из форматов файлов электронных документов не может считаться универсальным для длительного архивного хранения, поскольку довольно быстро меняются техника, технологии и программное обеспечение. Формат документа зависит от области применения, сферы деятельность той или иной организации, от правового статуса документа.

документооборот редактирование защита

 
< Пред   СОДЕРЖАНИЕ   Загрузить   След >