Метаданные ИСИР: определение и использование.

А. Н. Бездушный, А. М. Серебряков, А. А.Филиппова
Вычислительный центр РАН
Адрес: Москва, ул. Вавилова, 40
Тел. (095)1355471
А. С. Лопатенко
Центр научных телекоммуникаций и информационных технологий РАН
Адрес: Москва, ул. Губкина, 8
Тел. (095)9383938

Для современных сложных информационных систем необходима поддержка метаданных – информации, предназначенной для анализа, дизайна, развития и использования информационных систем1. Для систем класса цифровых библиотек, каковой является ИСИР РАН (Интегрированная система информационных ресурсов РАН), метаданные особо необходимы для задач управления системой, корректного использования и понимания данных системы.

С точки зрения ИСИР РАН метаданные делятся на два типа:

Остановимся подробнее на каждом из типов метаданных.

Метаданные схемы системы.

Для описания информационной модели ИСИР РАН используется стандарт Object Management Group XML Metadata Interchange (OMG XMI). Этот стандарт позволяет описывать классы объектов, представляющие типы информационных ресурсов ИСИР РАН, атрибуты и отношения между различными типами ресурсов.

Этот стандарт используется в ИСИР РАН для следующих целей:

Для описания схемы данных ИСИР РАН используется формат OMG Common Warehouse Model Interchange, базирующийся на XMI. Этот формат позволяет описывать многие аспекты как структуры системы, так и операций трансформации, загрузки и выгрузки данных из них.

Этот формат используется:

В дальнейшем его использование позволит не менять код систем, работающих с ИСИР, а менять только описания БД. Кроме того, многие современные производители и разработчики РСУБД и решений хранилищ данных начинают использовать этот стандарт, что позволит использовать эти технологии в качестве средств проектирования и разработки ИСИР РАН.

Данный стандарт был выбран по следующим причинам:

Прототип системы обмена данными выполняет задачи настраиваемого представления данных ИСИР в виде объектного API, экспорта данных ИСИР из БД в XML/RDF-представление (база данных – источник, XML/RDF - приемник данных). Данный прототип в настоящее время реализован на языке Java с использованием технологии Enterprise JavaBeans.

Данный прототип позволяет экспортировать информационные ресурсы в следующие модели данных:

При экспорте для выражения семантики могут быть использованы различные стандарты.

К настоящему моменту система настроена на:

Метаданные ресурсов.

При разработке модели данных ИСИР РАН одними из основных требований к ней были:

С учетом этих требований, в модель были включены ресурсы следующих типов: “организация”, “персона”, “проект” и “публикация”. Разработка структуры ресурсов требует определения характерных свойств каждой информационной сущности, достаточно полно описывающих ее. Эта задача усложняется требованием интероперабельности. Обеспечение интероперабельности является одной из наиболее важных задач, так как значительные информационные ресурсы уже представлены в цифровом виде, и основная проблема, возникающая при их использовании, заключается в отсутствии связей между ними. Для обеспечения взаимодействия с широким кругом информационных систем необходимо, чтобы модель была совместима с общепринятыми стандартами представления данных. Нами были изучены предложения и стандарты метаописания информационных ресурсов, представленных в ИСИР РАН, например: Dublin Core, MARC, GILS, CERIF, vCard.

В качестве основы для реализации ресурса “публикация” из множества имеющихся вариантов был выбран Dublin Core. Этот выбор обусловлен следующими преимуществами этого стандарта:

Модель данных публикации ИСИР РАН позволяет задавать любой базовый элемент Dublin Core (Заглавие, Автор и т. д.). Предусмотрена возможность использования квалификаторов, уточняющих семантику базовых элементов (например, Параллельное заглавие, Участник-Редактор и т. п.). Это позволяет достаточно легко обмениваться библиографической информацией на основе этого стандарта. Однако серьезным препятствием для интероперабельности этой подсхемы модели ИСИР РАН с другими системами является то обстоятельство, что большинство этих систем рассматривает отдельные свойства публикаций, такие как “автор”, “издатель”, “источник”, как обычные текстовые атрибуты, в то время как они, по сути, являются связями с другими сущностями (персонами, организациями, публикациями). Такие модели не противоречит Dublin Core, но приводит к определенной несовместимости их с моделью ИСИР РАН и, в частности, к неоднозначности при интеграции данных в систему.

Для представления информации о научных проектах предназначен стандарт CERIF. Он основан на модели данных, которая включает сущности “проект”, “организация” и “персона”, связи между ними, а также атрибуты этих сущностей. Стандартом определяется три уровня детализации при описании ресурсов:

  1. Полное описание ресурсов – содержит расширенный набор атрибутов, позволяющий описывать различные схемы ресурсов;
  2. Набор атрибутов для осуществления обмена данными между различными системами;
  3. Сокращенный набор атрибутов – метаописание ресурсов.

В модели ИСИР РАН ресурс “проект” имеет следующие свойства: даты начала и окончания проекта, код проекта, тип, ключевые слова, описание. Также в нее включена связь “участник” между проектом и организацией/персоной, имеющая атрибут “тип участия”. Таким образом, взаимодействие с другими системами на основе CERIF реализуется достаточно легко. Тем не менее, в настоящий момент стандарт реализован в ограниченном варианте (так, в ИСИР РАН не определено понятие “результат проекта”), и модель ресурса “проект” будет развиваться. Примечательно, что модель данных, предлагаемая CERIF, явно определяет персоналии и организации как самостоятельные сущности, что хорошо согласуется с моделью ИСИР РАН и делает информационный обмен еще проще.

Для представления информации о персоналиях существует значительное количество форматов. Тем не менее, достаточно широко используется только стандарт vCard, разработанный для унификации обмена данными между программными приложениями и информационными системами. Основными понятиями формата являются: поток данных и объект vCard. Поток данных – это набор vCard–объектов, которым обмениваются системы. vCard-объект – это набор предопределенных атрибутов, описывающих некоторый ресурс. Атрибут определяется своим именем, возможно, набором параметров, и значением. Параметры конкретизируют значение атрибута – например, для атрибута “телефон” параметры уточняют его значение: домашний, рабочий. Набор элементов и их параметров четко определен в стандарте и не расширяем. Формат позволяет создавать “электронные визитные карточки” для объектов типа персона.

Однако после анализа имеющихся данных было установлено, что семантика vCard недостаточна для представления всех необходимых атрибутов. Например, научная степень и академический статус персоны не имеют семантически близких элементов в vCard. В связи с этим, модели ресурсов “персона” и “организация” были разработаны так, чтобы максимально точно сохранить модель, лежащую в основе имевшихся исходных данных. Ресурс типа “организация” имеет атрибуты: название, аббревиатура, адрес, телефон, электронный адрес, вид организации, направление деятельности, историческая справка, схема проезда, ключевые слова, фотография. Ресурс типа “персона” обладает атрибутами: фамилия, имя, отчество, научная степень, научное звание, академический статус, специальность ВАК, ключевые слова, направление деятельности, фотография. Кроме того, между этими типами ресурсов установлена связь “должность”, обладающую атрибутами: название, вид, телефон, электронный адрес.

Основная цель поддержки vCard — экспорт данных в формате, понятном большому числу систем. В настоящий момент выполняется экспорт ограниченного набора атрибутов. В дальнейшем этот набор будет расширен, а также реализована возможность импорта данных из этого формата.

Следует отметить, что каждый стандарт предлагает собственную модель данных, часто и собственный синтаксис для записи информации. Подход ИСИР РАН заключается в использовании для обмена метаданными единой модели данных и синтаксиса, определяемых RDF2. Только семантика атрибутов тех или иных ресурсов берется из соответствующего стандарта. Если найти подходящий элемент в стандартных пространствах имен не удается, можно создать собственное пространство, определив его посредством URI, и добавлять в него элементы с требуемой семантикой. Такой подход значительно упрощает взаимодействие между ИСИР РАН и другими системами.

Заключение.

В ИСИР разработана технология обмена данными с внешними системами, основанная на международных стандартах представления метаданных, включающая в себя общую модель данных и средства импорта/экспорта данных.


1 Meta Data Europe 99: Implementing, Managing and Integration Meta Data, London UK, March 1999. Technology Transfer Institute. http://www.ttiuk.co.uk

2 Resource Description Framework (RDF) Model and Syntax", W3C Recommendation, 1999. http://www.w3.org/TR/REC-rdf-syntax


Бездушный Анатолий Николаевич, кандидат физико-математических наук, с.н.с. вычислительного центра РАН.

Сфера деятельности:

Тел. (095)1355280, E-mail: bezdushn@ccas.ru

Лопатенко Андрей Сергеевич, м. н. с. центра научных телекоммуникаций и информационных технологий РАН.

Сфера деятельности:

Тел. (095)9383938, E-mail: andreyl@ccas.ru

Меденников Антон Михайлович, аспирант вычислительного центра РАН.

Сфера деятельности:

Тел. (095)5721234, (095)1355280, E-mail: meden@ccas.ru

Серебряков Владимир Алексеевич, с.н.с., зав.отделом вычислительного центра РАН.

Сфера деятельности:

Тел. (095)1355471, (095)3065620, E-mail: serebr@ccas.ru

Филиппова Анна Александровна, сотрудник вычислительного центра РАН.

>