Электронный словарь

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Электронный словарьпрограммное обеспечение, которое позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Внутренне устроен как база данных со словарными статьями.

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.

Машиночитаемые словари

[править | править код]

Создание машиночитаемых словарей

[править | править код]

В проекте Leipzig Corpora Collection[1] (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет[2]. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов[3]. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения[3].

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán[4], собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен[5]. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря[6].

Использование машиночитаемых словарей

[править | править код]

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы[7].

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий[8].

Трудности извлечения информации из словарей:

Число уникальных русских слов в академических словарях (вертикальная полоса) и число уникальных слов по всем 12 словарям (круговая диаграмма), 2015[9]
  • Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами[10]. Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало[10].
  • Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям[11]. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует[12]. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать[12].
  • Необходима частичная ручная проверка для построения качественных баз знаний по словарям[13].
  • Необходима интеграция множества источников данных. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна[13]. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей[9]. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей[9].

Формат машиночитаемых словарей

[править | править код]
Фрагмент страницы в русско-ненецком словаре. Словарные статьи краткие, но включают большой объём разнородных данных: толкование, перевод, словообразование, ударение, грамматические и диалектные пометы

Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей[13]. Примером является формат, выработанный сообществом TEI[13].

С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче «товары-поставщик» или организация «базы данных сотрудников». Классические (реляционные) базы данных не являются идеальным решением для лексических баз данных[14].

В работах[15][16], посвящённых исследованиям в области проектирования баз данных, предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.

Популярные электронные словари

[править | править код]

Программы, сайты и др.

[править | править код]

Примечания

[править | править код]
  1. Leipzig Corpora Collection. Дата обращения: 5 мая 2019. Архивировано 30 мая 2016 года.
  2. Goldhahn et al., 2012, с. 760.
  3. 1 2 Goldhahn et al., 2012, с. 762.
  4. An Crúbadán — Corpus Building for Minority Languages. Дата обращения: 5 мая 2019. Архивировано 23 апреля 2019 года.
  5. Scannell, 2007.
  6. Scannell, 2007, с. 9.
  7. Ide, Véronis, 1994, с. 137—138.
  8. Ide, Véronis, 1994, с. 138.
  9. 1 2 3 Kiselev et al., 2015.
  10. 1 2 Ide, Véronis, 1994, с. 139.
  11. Ide, Véronis, 1994, с. 141.
  12. 1 2 Ide, Véronis, 1994, с. 140.
  13. 1 2 3 4 Ide, Véronis, 1994, с. 143.
  14. Ide, Véronis, 1994, с. 144.
  15. Ide, N., Le Maitre, J., & Véronis, J. (1994). Outline of a model for lexical databases Архивная копия от 9 августа 2017 на Wayback Machine. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
  16. Véronis, J., & Ide, N. (1992, August). A feature-based model for lexical databases Архивная копия от 14 июля 2019 на Wayback Machine. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Литература

[править | править код]