О создании русскоязычной онтологии по цифровой гуманитаристике
О создании русскоязычной онтологии по цифровой гуманитаристике
Аннотация
Код статьи
S160578800025499-4-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Антопольский Александр Борисович 
Аффилиация: Институт научной информации по общественным наукам РАН
Адрес: Российская Федерация, Москва
Выпуск
Страницы
22-32
Аннотация

Предлагается разработка русскоязычной онтологии по цифровой гуманитаристике как части инфраструктуры этой дисциплины, которая получает организационное оформление как в мире, так и в России. Описываются основные зарубежные источники для такой онтологии. Также описываются российские проекты последних лет в области понятийного состава лингвистики и филологии в целом, которые целесообразно использовать. Кратко излагается формирование концептуальной модели онтологии. В качестве технологической основы предлагается модель проекта Ontolex-Lemon на платформе Семантической сети и лингвистических связанных открытых данных. Подчеркивается необходимость коллаборации различных специалистов и организаций.

Ключевые слова
цифровая гуманитаристика, онтологии, мировой опыт, российские источники, компьютерная лингвистика, цифровая филология, Ontolex-Lemon
Классификатор
Получено
04.04.2022
Дата публикации
30.04.2023
Всего подписок
13
Всего просмотров
207
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf
Доступ к дополнительным сервисам
Дополнительные сервисы только на эту статью
Дополнительные сервисы на весь выпуск”
Дополнительные сервисы на все выпуски за 2023 год
1

Введение

2 Можно утверждать, что с начала ХХI в. в мире сложилась новая дисциплина, которую принято называть Digital Humanities, или цифровой гуманитаристикой. В монографии [1], а также в исследовании, описанном в работе [2], показано, что в мире уже сотни организаций относят себя к этой дисциплине, активно реализуются международные и национальные программы в этой области, и, самое главное, создается специализированная инфраструктура, поддерживающая исследования, разработки и формирование информационного пространства (инфосферы) цифровой гуманитаристики. Описанию состава и функционирования этой инфраструктуры в Евросоюзе посвящена другая публикация автора [3].
3 Нужно отметить, что состав и содержание цифровой гуманитаристики остаются дискуссионными. В частности, различные подходы к определению данной дисциплины представлены в хрестоматии, изданной в Красноярске [4]. Однако большинство исследователей сходятся во мнении, что ядром цифровой гуманитаристики являются такие дисциплины, как историческая информатика, компьютерная лингвистика, цифровая филология, а также применение информационно-компьютерных технологий в библиотеках, архивах и музеях. Из этого, в частности следует, что цифровая гуманитаристика должна стать одним из важных и перспективных направлений деятельности Отделения историко-филологических наук РАН. Действительно, одна из последних научных сессий ОИФН РАН была посвящена этим разработкам [5].
4 В России цифровая гуманитаристика также получает организационное оформление: в нескольких университетах созданы соответствующие структуры, которые объединились в Российскую ассоциацию цифровых гуманитарных наук1. Также ведется работа по созданию инфраструктуры: ИНИОН РАН и Центр цифровых гуманитарных наук Сибирского федерального университета начали проект по созданию информационно-справочной системы по цифровой гуманитаристике [6].
1. Российская ассоциация цифровых гуманитарных наук >>>> (дата обращения: 01.04.2022).
5 Важным компонентом инфраструктуры современной цифровой науки являются онтологии, обеспечивающие представление понятийного и лексического состава различных научных дисциплин, а также научного знания в целом. Существенно, что онтологии отражают концептуальные модели как в формализованном виде, пригодном для компьютерной обработки, так и в естественно-языковой форме, учитывающей специфику национальной терминологии. Эти онтологии должны применяться при реализации различных проектов, создавая логическую и понятийную основу представления научной информации. При этом, кроме своей основной функции, онтология одновременно должна организовывать пространство метаданных, которое описывает, представляет и структурирует инфосферу данной области знания.
6 В данной статье обосновывается возможность и целесообразность создания русскоязычной онтологии по цифровой гуманитаристике с учетом как мирового опыта, так и отечественных разработок, которые можно положить в основу создания онтологии.
7

Мировые источники онтологии

8 Очевидно, что цифровая гуманитаристика носит комплексный междисциплинарный характер, поэтому средства индексирования для этой сферы должны интегрировать понятия из разных областей. Европейские исследователи коллективными усилиями разработали специальную таксономию для представления понятий по исследованиям в цифровой гуманитаристике, которая получила название TADIRAH2. Как пишут разработчики “эта таксономия цифровой исследовательской деятельности в гуманитарных науках была разработана для использования сайтами и проектами, управляемыми сообществом, которые направлены на структурирование информации, относящейся к цифровым гуманитарным наукам, и облегчение ее обнаружения. Ожидается, что таксономия будет особенно полезна для усилий, направленных на сбор информации о цифровых гуманитарных инструментах, методах, проектахˮ.
2. TaDiRAH – Taxonomy of Digital Research Activities in the Humanities. URL: >>>> (дата обращения: 01.04.2022).
9 TADIRAH включает 3 фасета:
10
  • Виды исследовательской деятельности
  • Объекты исследования
  • Методы исследований
11 TADIRAH представляет собой относительно небольшой инструмент. Виды деятельности включают 8 рубрик и 40 подрубрик, Объекты – 40 наименований типов в виде плоского списка, и Методы включают 41 термин, часть из которых привязана к Видам деятельности, а часть объявлена независимыми.
12 Наименования рубрик и подрубрик Видов деятельности снабжены достаточно подробными толкованиями. Объекты и Методы толкований не имеют.
13 Анализ TADIRAH показывает, что предлагаемый в нем состав понятий и их связей лишь частично отражает российскую терминологическую традицию и практику применения понятий. Это видно с первой же рубрики основного фасета Виды деятельности, которая называется Захват (в оригинале – capture).
14 Приведем толкование этого понятия по TADIRAH: “Захват обычно относится к деятельности по созданию цифровых суррогатов существующих культурных артефактов или выражению существующих артефактов в цифровом представлении (оцифровка). Это может быть ручной процесс (как в расшифровке) или автоматизированная процедура (как в визуализации или распознавании данных). Такой захват предшествует обогащению и анализу, по крайней мере, с систематической точки зрения, если не на практикеˮ.
15 Понятие Захват включает такие подрубрики, как Преобразование, Распознавание данных, Раскрытие, Сбор, Отображение, Запись Транскрипция, а в качестве метода указан только Обход веб-страниц.
16 Предлагаемое толкование так же, как и содержание рубрики, вызывает массу вопросов. Начнем с того, что понятия Захват в российской традиции вообще нет. Вероятно, ближе всего к содержанию этого понятия относится Сбор. Но тогда Преобразование, Распознавание данных, Раскрытие, Транскрипция должны относиться к виду деятельности Обработка информации, но не к сбору.
17 А создание цифровых суррогатов – это, конечно, прежде всего, Оцифровка. Однако этот метод в TADIRAH отнесен не к Захвату, а к Созданию.
18 Различные вопросы возникают при анализе и других видов деятельности и методов, включенных в TADIRAH. В целом эта система понятий не вполне соответствует российской практике.
19 Более привычен для российского исследователя перечень типов объектов TADIRAH. Однако и здесь есть вопросы. Так, например, сложно различать такие типы объектов, как Проекты, Исследования, Процесс исследования, Результаты исследований. Неясно соотношение понятий Программное обеспечение и Инструменты. К тому же в этом перечне в едином ряду представлены понятия самых разных семантических категорий, от тематических рубрик до абстрактных понятий.
20 Добавим, что в TADIRAH отсутствует множество понятий, необходимых для отображения понятий цифровой гуманитаристики, например, тематические понятия, языковый, географический, хронологический и другие фасеты.
21 Таким образом, хотя TADIRAH, конечно, должна быть учтена при разработке отечественной онтологии по цифровой гуманитаристике, но не может быть ее основой.
22 Конечно, за рубежом разработано и используется множество других средств представления систем понятий в цифровой гуманитаристике. Эти средства реализованы в виде стандартов, систем метаданных, тезаурусов, классификаций и собственно онтологий по разным областям знания и формам деятельности, которые имеют отношение к данной дисциплине.
23 Анализ и обобщение мирового опыта по представлению понятийных и лексических собраний как универсальных, так и тематических, связанных с областью культурного наследия, сделан Дж. Рилей из Университета МакГилла [7]. В секторе культурного наследия существует огромное количество стандартов метаданных и аналогичных понятийных схем, а их взаимосвязь еще больше осложняет ситуацию. В проекте Дж. Рилей собрано и систематизировано свыше 100 таких средств. Они загружены в платформу Dataverse, что позволяет удобно анализировать эти средства по различным основаниям, а также визуализировать результаты анализа.
24 В работе Дж. Рилей различные средства представления понятий рассматриваются как пространство метаданных, включающее разные стандарты. Каждый из 105 стандартов оценивается по степени его применения к определенным категориям по каждой из четырех осей: сообщество, область, функция и цель.
25 Под сообществами имеются в виду следующие категории: архивы, музеи, библиотеки, информационная индустрия.
26 Области включают такие категории: культурные объекты, наборы данных, геопространственные данные, движущиеся объекты, музыкальные материалы, научные данные, визуальные ресурсы.
27 Функциональные категории: концептуальные модели, стандарты на контент, контролируемые словари, схемы и технологии, языки разметки, форматы, стандарты на структуру.
28 Категории целей предлагаются следующие: данные, описательные метаданные, метаданные оформления, метаданные сохранности, правовые метаданные, структурные метаданные технические метаданные
29 Значение стандарта в данной категории определяется сочетанием его распространенности в этой категории, его конструктивного замысла и его общей пригодности для использования в этой категории.
30 Представленные в данной работе стандарты относятся к числу наиболее широко используемых или публикуемых в сообществе культурного наследия, хотя, конечно, учтены не все стандарты, которые могут иметь отношение к области культурно наследия.
31 Еще одна обобщающая работа, которую можно использовать в качестве источника онтологии цифровой гуманитаристики, – это информационная система связанных открытых словарей LOV3.
3. LOV – Linked Open Vocabularies. URL: >>>> (дата обращения: 01.04.2022).
32 В LOV в настоящее время загружено почти 800 словарей, онтологий и других лексических и понятийных собраний, в том числе разнообразные стандарты метаданных.
33 Данные в LOV представлены в формате связанных открытых данных. Для каждого словаря в LOV термины (классы, свойства, типы данных, экземпляры) индексируются и предлагается функция полнотекстового поиска. По сравнению с другими существующими поисковыми системами онтологии алгоритм ранжирования в поисковой системе LOV не только основан на популярности термина в наборах данных, но и учитывает его популярность в экосистеме LOV. В системе возможен поиск словарных данных по семантическим категориям, таким как Метаданные, Методы, Сервисы, Каталоги. Персоны, Словари, Мультимедиа, События, Время и др.
34 В мире, конечно, разрабатывается множество других лексико-семантических собраний, которые могут быть использованы при разработке русскоязычной онтологии по цифровой гуманитаристике. Многие из них рассмотрены в обзорной монографии автора [8]. Однако наиболее актуален для данной задачи российский опыт.
35

Российский опыт

36 В данном разделе мы кратко представим российские источники словарно-энциклопедических сведений, а также опишем практические реализованные концептуальные модели российских разработчиков последних лет. Тематически мы ограничимся областью компьютерной лингвистики и цифровой филологии.
37 В настоящее время российским пользователям Интернета доступны сотни как оцифрованных традиционных словарей на различных языках, так и специализированных лексикографических баз данных различного назначения. Известно несколько российских агрегаторов лексикографических ЛИР, назовем наиболее популярные: Грамота.ру4, Словари5, Lingvo6, Словари Онлайн7, Мультитран8, Академик9, Словари.СС10.
4. Грамота.ру. URL: >>>> (дата обращения: 01.04.2022).

5. Словари. URL: >>>> (дата обращения: 01.04.2022).

6. Lingvo. URL: >>>> (дата обращения: 01.04.2022).

7. Словари Онлайн. URL: >>>> (дата обращения: 01.04.2022).

8. Мультитран. URL: >>>> (дата обращения: 01.04.2022).

9. Академик. URL: >>>> (дата обращения: 01.04.2022).

10. Словари.СС. URL: >>>> (дата обращения: 01.04.2022).
38 Специализированный подбор словарей и энциклопедий филологической тематики собран в соответствующем разделе известной информационной библиотеки ФЭБ “Русская литература и Фольклорˮ11.
11. Фундаментальная электронная библиотека “Русская литература и фольклорˮ. Словари, энциклопедии. URL: >>>> (дата обращения: 01.04.2022).
39 Вероятно, наиболее авторитетным собранием компьютерных словарей в России является раздел “Лексикографические ресурсыˮ на сайте Института русского языка им. В.В. Виноградова РАН12.
12. Онлайн ресурсы ИРЯ РАН. Лексикографические ресурсы. URL: >>>> (дата обращения: 01.04.2022).
40 Сведения о российских лексикографических ЛИР для научных исследований собраны в Навигаторе информационных ресурсах по языкознанию13. Всего там описано около 100 лексикографических ЛИР, разработанных в учреждениях РАН, в том числе различные словари на основе НКРЯ.
13. Навигатор информационных ресурсах по языкознанию. URL: >>>> (дата обращения: 01.04.2022).
41 Перечень российских электронных словарей и лексических баз данных можно найти в каталоге NL-Pub в разделах Словари и Тезаурусы14.
14. Ресурсы. Словари. URL: >>>> (дата обращения: 01.12.2021).
42 Российский опыт в области создания онтологий и компьютерной лексикографии в целом также достаточно богат и разнообразен. Обобщение этого опыта можно найти в том числе в монографиях [9] и [10], а также в работе автора [8].
43 В России наиболее полно и глубоко онтологическая проблематика реализована в Лаборатории информационных исследований15, которая известна своими разработками в области создания тезаурусов и автоматической обработки текста. Созданный в лаборатории тезаурус RuThes16 используется в информационной системе УИС Россия17 и в других проектах с государственными и коммерческими организациями.
15. Лаборатория информационных исследований. URL: >>>> (дата обращения: 01.04.2022).

16. О лингвистической онтологии “Тезаурус РуТезˮ см.: URL: >>>> (дата обращения: 01.04.2022).

17. УИС Россия. URL: >>>> (дата обращения: 01.04.2022).
44 Тезаурус RuThes представляет собой лингвистический ресурс концептуального типа, то есть иерархическую сеть понятий, к которым приписаны текстовые выражения. И в этом смысле RuThes относится к тому же классу, что и тезаурус WordNet. При этом, в отличие от WordNet, который создавался как модель человеческой памяти (раздельное описание частей речи, специальные типы отношений и др.), тезаурус RuThes задумывался именно как ресурс для автоматической обработки текстов.
45 Следует отметить также разработки компьютерных лингвистов из СПбГУ. Разработанный этим коллективом тезаурус RussNet стал одним из заметных российских лингвистических ресурсов18.
18. RussNet. URL: >>>> (дата обращения: 01.04.2022).
46 Важным достижением в области систематизации понятий и лексики в области компьютерной лингвистики стала разработка Портала знаний19.
19. Компьютерная лингвистика. Портал знаний. URL: >>>> (дата обращения: 01.04.2022).
47 В этом проекте подробно разработана классификация лингвистических ресурсов, методов автоматического исследования текста, а также всей сопутствующей информации; фактически построена онтология понятий, относящихся к компьютерной лингвистике. Описание проекта можно найти в работе [10].
48 Приведем для иллюстрации фрагмент разработанной классификации.
49 Методы обработки текста
50 Методы анализа текста
51 [[[image1]]]Методы морфологического анализа
52 Методы разрешения анафоры
53 Методы разрешения неоднозначности
54 [[[image1]]]Методы разрешения лексической многозначности
55 Методы снятия грамматической неоднозначности
56 Методы сегментации текста
57 Методы синтаксического анализа
58 Методы генерации текста
59 Оригинальным проектом по представлению лингвистических знаний является работа известного российского лингвиста С.А. Крылова. Результат этой работы, которую он назвал металингвистической БД, размещен на информационном портале Starling20. Процитируем С.А. Крылова: “Металингвистические базы данных (МБД), служат инструментом систематизации знаний о лингвистике (а не напрямую о языке), однако косвенно способствуют также систематизации сведений о языке. Можно выделять две разновидности МБД:
20. Вавилонская башня. Проект “Эволюция языкаˮ. URL: >>>> (дата обращения: 01.12.2021).
60 (1) метанаучные (МН-) МБД (входы в которые являются металингвистическими проекциями научных текстов по лингвистике) и
61 (2) метаобъектные (МО-) МБД (входы в которые являются металингвистическими проекциями языковых сущностей).
62 Входами в МО-МБД служат, например, характеристики языковых общностей (лингвонимические, этнонимические, топонимические, хронологические); нарицательные лингвистические термины; имена языковых единиц (в том числе имена таксономических классов внеязыковых сущностей).
63 Следует прежде всего проводить различие между онтологическим (материальным) уровнем, на котором можно выделить объектное множество (оригинал, универсум) с существующими в нём отношениями и гносеологический (эпистемологический, идеальный) уровень, на котором выделяется модельное множество (модель, теория) с заданными на нём отношениями. Эту модель и строит металингвист, воплощающий её в виде грамматики, словаря, предметного или именного указателя, таблицы, графа, дерева, карты, атласа, базы данных и т.п.ˮ [11].
64 В данной работе предлагается развернутая система понятий, представляющих предметную область; мы приводим верхние уровни этой классификации.
65 I. Универсум языковых явлений.
66 IА. Общелингвистический универсум.
67 (IА.1.) Мир языковой системы.
68 (IА.1.0.) Языковая система и ее подсистемы.
69 (IА.1.1.) Языковые единицы (ЯЕ).
70 (IА.1.2.) Отношения между ЯЕ.
71 (IА.1.3.) Члены отношений между ЯЕ.
72 (IА.1.4.) Функции ЯЕ.
73 (IА.1.5.) Способы выражения значений.
74 (IА.1.6.) Классы ЯЕ.
75 (IА.1.7.) Члены классов ЯЕ.
76 (IА.1.8.) Языковые структуры.
77 (IА.1.9.) Части языковых структур.
78 (IА.1.10.) Языковые процессы.
79 (IА.1.11.) Логические связи языковых явлений.
80 (IА.2.) Речевая динамика.
81 (IА.3.) Речевая способность (типы, аспекты и компоненты).
82 (IА.4.) Речевое варьирование (типы и проявления).
83 (IА.5.) Языковое функционирование (типы).
84 (IА.6.) Языковые изменения (типы, аспекты и компоненты).
85 (IА.7.) Языковые сходства и различия (типы).
86 (IА.8.) Исторические отношения между языковыми общностями.
87 IБ. Частнолингвистический универсум.
88 (IБ.1.) Универсум исторических языковых общностей.
89 (IБ.2.) Универсум ареалов распространения языков: континенты, регионы, страны, населённые пункты.
90 (IБ.3.) Универсум частнолингвистических единиц.
91 IВ. Универсум речевых событий
92 (IВ1.) Универсум словесности (множество текстов).
93 (IВ1.2.) Универсум памятников письменности.
94 (IВ1.3.) Универсум высказываний.
95 (IВ2.) Универсум вхождений речевых знаков-экземпляров (tokens).
96 II. Универсум собственно лингвистики
97 (II.1) Лингвисты (в том числе лингвисты-непрофессионалы).
98 (II.2) Лингвистические школы и направления.
99 (II.3.) Лингвистические кружки, общества, ассоциации и т.п.
100 (II.4.) Места, где протекает деятельность лингвистов (континенты, страны, провинции, населённые пункты).
101 (II.5.) Учреждения, где протекает деятельность лингвистов.
102 (II.6.) Универсум лингвистических работ.
103 III. Мир лингвистических моделей.
104 (III.1.) Описания языков (словари, грамматики и т.п.).
105 (III.2.) Описания речевых отрезков: транскрипции, хрестоматии текстов, издания памятников, продукты транскрипции и транслитерации, переводы текстов, фонетические сонограммы, комментарии, глоссы, формальные представления текстов в виде морфологических и синтаксических “разборовˮ, синтаксических графов (в частности, деревьев зависимостей и составляющих), цепочки трансформационного вывода, толкования отдельных примеров и т.п.
106 (III.3.) Описания ЯЕ: словарные статьи, правила, законы, исключения к правилам и т.п.
107 Ценным источником онтологической и лексико-семантической информации является русский Викисловарь (WIKT)21. Словарь был открыт 1 мая 2004 года, и сейчас в нём содержится 1 114 852 статьи о словах, словообразовательных единицах и словосочетаниях более 500 языков мира. Русский Викисловарь является восьмым по величине викисловарем, состоящим из более чем 520 000 статей. Одна статья представляет собой лексическую запись, написанную более чем 120 000 пользователей с 2004 года.
21. Русский Викисловарь. URL: >>>> (дата обращения: 01.04.2022).
108 Предметом описания в Викисловаре являются все лексические единицы, зафиксированные во всех письменных языках и диалектах мира. Словник Викисловаря формируется из лексем, морфем и других словообразующих единиц, а также устойчивых словосочетаний этих языков, с использованием тех графических основ (систем письменности), которые традиционно применяются в соответствующих языках.
109 Викисловарь сочетает функции нескольких видов традиционных словарей, включая толковые, орфографические, орфоэпические, грамматические, переводные, фразеологические и этимологические словари, а также тезаурусы.
110 Можно указать также на проект разработки онтологии научного знания на основе интеграции классификационных систем и толковых словарей. Это проект, который был выполнен в 2014–2015 гг. по заданию Минобрнауки РФ при головной роли ВИНИТИ и в котором принимала участие группа специалистов из разных организаций, включая одного из авторов.
111 Подробное описание проекта имеется в работе [12]. Здесь укажем, что практическим результатом данного проекта было создание базы данных Терминологические словари22. Источниками формирования терминологических словарей являются следующие ресурсы:
22. Терминологические словари. URL: >>>>
112 •энциклопедические словари (энциклопедии), имеющиеся в свободном доступе через Интернет;
113 •ключевые слова, приписанные к рубрикам согласно технологии библиографических баз данных ВИНИТИ, БЕН РАН и НПБ им. К.Д. Ушинского;
114 •база данных стандартизованной терминологии Росстандарта;
115 •лексика наименований рубрик сопоставляемых классификационных систем;
116 •тезаурусы тематических рубрик НПБ им. К.Д. Ушинского и ИФП СО РАН.
117 Конечной целью проекта предполагалось создание онтологии научного знания на основе интеграции всех перечисленных источников. Однако проект был завершен формированием экспериментальной базы данных, где процессы интеграции были реализованы лишь для нескольких тематических областей, включая языкознание.
118 Еще один проект, реализованный с участием автора, был направлен на исследование лексики метаданных российских лингвистических ресурсов. Целью его являлось создание лексической и терминологической основы для полноценной онтологии по лингвистике (языкознанию). Продукт, который получил название Онтология поисковых терминов по лингвистике (ОПТЕЛ), также может служить для навигации и/или метапоиска в российских ЛИР. Принципы отбора источников для ОПТЕЛ, структура БД, особенности отдельных словарей метаданных описаны в работе [13]. В настоящее время ОПТЕЛ реализована и размещена в Интернете23.
23. Онтология поисковых терминов по лингвистике. URL: >>>> (дата обращения: 01.12.2021).
119 Реализованная версия ОПТЕЛ включает 55 словарей, использованных в 28 российских ЛИР разных типов. Всего в ОПТЕЛ представлено свыше 430 тыс. уникальных лексических единиц; объем каждого словаря, данные о пересечениях, а также другая статистика приведены в работе [14]. Все словарные статьи независимо от исходной структуры словаря метаданных приведены к классической тезаурусной (дескрипторной) форме, как это описано в работе [15].
120 Функциональность ОПТЕЛ заключается в возможности исследовать лексику и парадигматику словарей информационных языков, вошедших в ОПТЕЛ, и что особенно важно, сопоставлять словарные статьи для выработки общей (сводной) словарной статьи, устранения обнаруженных противоречий и исправления ошибок.
121 Из последних исследований, связанных с представлением системы понятий в области цифровой филологии, можно назвать Тезаурус по сравнительной поэтике и сравнительному литературоведению, реализованный в одноименной информационной системе24.
24. Сравнительная поэтика и сравнительное литературоведение. URL: >>>>
122 Тезаурус состоит из терминов, находящихся в определенных отношениях. Система отношений представлена в виде “вертикальнойˮ иерархической структуры, дополненной “горизонтальнымиˮ неиерархическими отношениями (синонимия, альтернативное положение в иерархии). Все термины разделяются на два типа: термин-дисциплина, определяющий некоторую область науки (переводоведение, поэтика, стиховедение и т.д.), и термин-объект, определяющий конкретное научное понятие (буквальный перевод, комедия, ямб и т.д.). Между терминами существуют следующие структурообразующие отношения: “рубрика — разделˮ (между двумя терминами-дисциплинами, например: стиховедение — метрика), “дисциплина — объект дисциплиныˮ (между термином-дисциплиной и термином-объектом, например: метрика — метр) и “род — видˮ (между двумя терминами-объектами, например: метр — ямб).
123 Остальные отношения не являются структурообразующими: они эксплицируются в полях статей, но не отражаются в структуре (таковы, например, отношения между синонимами). Кроме того, в ряде случаев отношения между терминами носят принципиально сетевой характер. Для того, чтобы сохранить “древеснуюˮ иерархию, в соответствующем месте структуры размещаются ссылки на альтернативное месторасположение термина (“термин-ссылкаˮ).
124 В описанной системе имеется также раздел Энциклопедия, в котором содержатся краткие биографические и библиографические сведения о поэтах, переводчиках и исследователях-компаративистах.
125 Очевидно, что данный проект содержит все необходимые предпосылки для разработки онтологии, хотя и по ограниченной тематике.
126 Таким образом, можно констатировать наличие большого числа созданных российскими лингвистами и информатиками источников, которые могут быть использованы при создании онтологии по цифровой гуманитаристике, по крайней мере, ее филологического компонента.
127 В заключительной части статьи мы изложим некоторые предложения по методике разработки этой онтологии.
128

Принципы разработки модели онтологии

129 Международное сообщество не только ведет практическую работу по созданию онтологий и агрегации соответствующих данных, но и проводит исследования по разработке общей модели, предполагающей взаимодействие онтологий и классической лексикографии. Этой проблеме посвящен проект ONTOLEX25, который реализует одноименное сообщество в рамках деятельности Консорциума Всемирной паутины. Основные задачи проекта:
25. Ontology-Lexicon community group. URL: >>>> (дата обращения: 01.04.2022).
130

1. Разработка моделей представления лексики (и машиночитаемых словарей) относительно онтологий. Эти лексические модели предназначены для представления лексических записей, содержащих информацию о том, как элементы онтологии (классы, свойства, индивиды и т. д.) реализуются на нескольких языках.

131

2. Продемонстрировать дополнительную ценность представления лексики в семантической сети, уделяя особое внимание тому, как использование принципов связанных данных может позволить повторно использовать существующую лингвистическую информацию из такого ресурса, как WordNet.

132

3. Предоставить лучшие практики использования лингвистических категорий данных в сочетании с лексикой. 

133

4. Продемонстрировать, что создание такой лексики в сочетании с семантикой, содержащейся в онтологиях, может улучшить производительность инструментов автоматической обработки текста. 

134

5. Объединить людей, работающих над стандартами представления лингвистической информации (синтаксической, морфологической, семантической и прагматической), опираясь на существующие инициативы и определяя пути сотрудничества на будущее. 

135

6. Обеспечить взаимодействие между существующими моделями для представления и структурирования лингвистической информации. 

136 Последний результат проекта – модуль лексикографии модели Lexicon для онтологий (lemon) как результат работы группы сообщества Ontology Lexicon (OntoLex). Модуль предназначен для представления словарей и любых других лингвистических ресурсов, содержащих лексикографические данные, и адресует структуры и аннотации, обычно встречающиеся в лексикографии. Этот модуль работает в сочетании с модулем lemon core, называемым OntoLex26. Как нам представляется, именно модель Ontolex-Lemon должна быть положена в основу предлагаемой онтологии цифровой гуманитаристики.
26. The Ontolex Lemon Lexicography Module. URL: >>>> (дата обращения: 01.04.2022).
137 Началом разработки любой онтологии предметной области должно стать формирование концептуальной модели E/R (Сущность / Отношение), определяющей основные процессы, субъекты и объекты в этой области и виды взаимодействий между ними. Для разработки модели E/R бывает полезно сформулировать классические вопросы WHO, WHERE, WHEN и WHAT.
138 Для цифровой гуманитаристики основными объектами являются информационные ресурсы и инструментарий, субъектами – организации, физические лица, программы, процессами – сервисы, исследования, создание ресурсов и инструментов. Понятно, что процессы должны иметь назначение, хронологические, географические и инструментальные аспекты.
139 Рассмотренная нами в начале статьи таксономия TADIRAH содержит попытку формирования части концептуальной модели цифровой гуманитаристики, включающую цели исследований, методы исследований, объекты.
140 Исследование, проведенное с целью создания информационно-справочной системы по цифровой гуманитаристике и упомянутое в начале данной статьи, выявило основные сущности, определяющие состав инфосферы цифровой гуманитаристики: акторы, проекты, информационные ресурсы, инструменты, сервисы, нормативы.
141 Основными свойствами, характеризующими эти сущности и выделенными в ходе анализа, являются вид информационных ресурсов, назначение сервисов и инструментов, тематическая привязка ресурсов, географическая привязка актора, хронологическая привязка объекта
142 Вероятно, необходимыми сущностями (или свойствами сущностей) для области цифровой гуманитаристики должны быть категории, выделенные в цитируемом выше исследовании Дж. Рилей: институции, к которым принадлежит объект (архив, музей, библиотека и др.), функциональность и цели стандартов метаданных.
143 После определения состава сущностей области цифровой гуманитаристики, классов их свойств и отношений можно переходить к формированию списков понятий каждой сущности и троек “субъект–отношение–объектˮ, “объект–отношение–свойствоˮ и других для выявленных понятий. Для этой цели можно использовать существующие как зарубежные, так и российские энциклопедии, классификации, таксономии, онтологии, стандарты.
144 Заключительный шаг – это лексикализация понятий онтологии на основе существующих тезаурусов и словарей.
145 Как уже было отмечено, технологической основой, в рамках которой предлагается создавать онтологию цифровой гуманитаристики, должна быть, вероятно, технология связанных открытых данных. Конкретная технологическая модель реализована в проекте Ontolex-Lemon, описанном выше.
146 В заключение несколько слов об организации деятельности по созданию онтологии. По нашему мнению, это должен быть коллаборативный проект, отражающий коллективное знание научного сообщества, представленный в сети и доступный для постоянного пополнения участниками проекта, однако с централизованной модерацией. В проекте должны иметь возможность принять участие специалисты различных гуманитарных дисциплин, а также компьютерные лингвисты и информационные технологи. Технологии коллаборативных проектов хорошо известны, существует открытое программное обеспечение для коллективного создания онтологий; дело за организацией и желанием. Вероятно, инициативу по созданию онтологии должны проявить структуры, входящие в Ассоциацию цифровых гуманитарных наук. Автор надеется, что в число участников предлагаемого проекта войдет также ИНИОН РАН и другие академические организации гуманитарного профиля.

Библиография

1. Digital Humanities: гуманитарные науки в цифровую эпоху / под ред. Г.В. Можаевой. Томск: Изд-во Том. ун-та, 2016. 120 с.

2. Антопольский А.Б. Инфосфера цифровой гуманитаристики: опыт анализа // Информационные ресурсы России. 2022. № 1. С. 30–38. DOI: 10.52815/0204-3653_2022_01185_30

3. Антопольский А.Б. Информационная инфраструктура социально-гуманитарных наук в Евросоюзе // Наука и научная информация. Наука и научная информация / Scholarly Research and Information. 2021. № 4(1). С. 18–32. DOI: 10.24108/2658-3143-2021-4-1-18-32

4. Цифровые гуманитарные науки / Хрестоматия. URL: http://lib3.sfu-kras.ru/ft/LIB2/ELIB/b71/free/i-531505996.pdf (дата обращения: 01.04.2022).

5. Гуманитарные науки в эпоху цифровизации. Видеотрансляция Общего собрания Отделения историко-филологических наук РАН. URL: http://hist-phil.ru/events/427/ (дата обращения: 01.04.2022).

6. Антопольский А.Б. Инфосфера цифровой гуманитаристики: структура и тенденции развития // Электронное информационное пространство для науки, образования, культуры: материалы IX Международной научно-практической конференции (г. Орел, 16–17 декабря 2021 г.) / науч. ред. и сост. В.В. Матвеев, Д.Н. Грибков, ред. кол.: А.А. Аксюхин, С.Н. Манько. Орел: Орловский гос. ин-т культуры, 2022. С. 5–11.

7. Riley J. Seeing Standards: A Visualization of the Metadata Universe. DOI: 10.5683/SP2/UOHPVH, Scholars Portal Dataverse, V3. URL: gWl/jicj8wtJm4Grmph7TQ== [fileUNF] (дата обращения: 01.04.2022).

8. Антопольский А.Б. Лингвистические информационные ресурсы: монография / А.Б. Антопольский; ИНИОН РАН, Фундам/ б-ка; науч. ред Д.В. Ефременко, М.: ИНИОН РАН, 2022. 466 с.

9. Рубашкин В.Ш. Онтологическая семантика М.: Физматлит, 2013. 348 с.

10. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: модели, инструменты, приложения. М.: Изд-во ИНТУИТ, 2008. 176 с.

11. Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С., Соколова Е.Г. Разработка портала знаний по компьютерной лингвистике // Труды 11-й национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (г. Дубна, Россия). Т. 3. М.: ЛЕНАНД, 2008. С. 380–388.

12. Крылов С.А. Из каких элементов состоит метаязык лингвистики? // Кибрик А.Е. (гл. ред.). Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции “Диалогˮ (Бекасово, 26–30 мая 2010 г.). Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 248–253.

13. Антопольский А.Б., Ефременко Д.В. Инфосфера общественных наук России: монография / под ред. В. А. Цветковой.  М.; Берлин: Директ-Медиа, 2017. 676 с. DOI: 10.23681/468227

14. Антопольский А.Б., Савчук С.О., Тамеев А.А. О разработке онтологии поисковых терминов по лингвистике // Информационные ресурсы России. 2020. № 4. С. 2–7.

15. Антопольский А.Б., Максимов Н.В., Тамеев А.А. Экспериментальная база данных источников для создания онтологии по лингвистике // Информационные ресурсы России. 2021. № 3. С. 24–30. DOI: 10.46920/0204-3653_2021_03181_24

16. Каленов Н.Е., Белоозеров В.Н. Формирование терминологических словарей по лексике классификационных систем // Научно-техническая информация. Сер. 1. Организация и методика информационной работы. 2015. № 3. С. 60–70.

Комментарии

Сообщения не найдены

Написать отзыв
Перевести