Открытый грамматический словарь русского языка

oDict.ru – это открытый словарь русского языка, основанный на «Грамматическом словаре» А. А. Зализняка. «Открытый» означает, что он доступен для скачивания бесплатно и что любой желающий может его пополнять и редактировать.

Формат словаря — текстовый файл в кодировке Windows-1251 в архиве ZIP. Версии для скачивания обновляются с интервалом около 5 минут.

Почему oDict?

Что отличает ODict.ru от других вариантов словаря Зализняка? Почему вам стоит выбрать его для вашего следующего NLP-проекта?

  • Возможность пополнения: ваша программа, основанная на словаре ODict.ru, со временем будет только улучшаться и вам для этого ничего не нужно делать. Если вы заметите, что какого-то слова нет в словаре, его очень легко добавить. Для этого не нужно спрашивать ничьего разрешения.
  • Наличие информации об ударениях. Как известно, все мы родом из Зализняка, но многие словари в процессе своего развития утратили целые пласты информации, содержащейся в оригинале:

    • информация об ударении, основном и побочном, о случаях переноса ударения на частицу или предлог;
    • информация о видовых парах, о распределении глагольного вида по глагольным формам;
    • информация об отсутствующих и "затрудненных" грамматических формах;

    oDict, напротив, эту информацию сохранил и преумножил — в новых статьях. Кроме того, были добавлены (не для всех статей):

    • связи между прилагательными на -ский (-цкий) и мотивирующими словами;
    • пометы, определяющие выбор предлога В или НА в локативе.

Знакомство со словарем

лемматизация 9 ж 7а
полнотекстовый 7.2 п 1а
мерчендайзер 8 мо 1а
масс-спектрометрист 17.2 мо 1а
антипиратский 8.1 п 3а!~ $пират
сервисный 2 п 1*а $сервис
Филиппины 7 мн. ж 1а
Минэкономразвития 14 с 0
Россотрудничество 8 с 1а
Битлы 5 мн. мо 1а
леггинсы 2 мн. м 1а
гриль 3 м 2а
интрузивный 7 п 1*а
промзона 6 ж 1а
рейтинг 2 м 1а
Швеция 3 ж 7а
Эстония 4 ж 7а
Антарктида 8 ж 1а
Арктика 1 ж 3а
деэскалация 8 ж 7а
Евросоюз 7.1 м 1а
госсекретарь 10.2 м 2в
Женева 4 ж 1а
женевский 4 п 3а!~ $Женева
Боинг 2 м 3а
экстремальный 8 п 1*а
выживание 6 с 7а
техногенный 7 п 1*а
личка 2 ж 3*а
характерно 7 н
перепрыгивание 7 с 7а
достраиваемость 6 ж 8а
когнитивистика 9 3а
флуктуация 7 ж 7а
сверхскопление 11 с 7а
Константинополь 11 м 2а
реабилитационный 12 п 1*а

Большая часть словаря является одним из ранних изданий словаря Зализняка, переведенным в электронный вид Сергеем Старостиным. В версии Старостина исправлены найденные ошибки (в основном ошибки OCR). Добавлено более 3000 новых слов, из них немалую часть составляют топонимы. Каждое неочевидное слово тщательно проверялось с целью точно определить ударение и тип словоизменения. Для этого привлекались все доступные источники: словарь Агеенко, 6-е издание словаря Зализняка, словари на сайте gramota.ru, Википедия, статистика употреблений в интернете по данным поисковых систем.

Порядок слов в словаре произвольный. Набор помет в основном соответствует версии Старостина, который отличается от помет в бумажной версии Зализняка по форме, но не по содержанию. При желании легко находятся соответствия с бумажной версией.

Были добавлены две новые пометы:

М(на) означает, что слово употребляется с предлогом на (а не в) в местном падеже (локативе). Отличается от пометы П2(на) окончанием в этой форме (а не ударным ). Примеры:

  • рынок 2 м 3*а, М(на) (на рынке)
  • плот 3 м 1в, П2(на) (на плоту)

Помета $ добавлена к отдельным прилагательным и указывает на мотивирующее существительное:

  • абонентный 5 п 1*а! $абонент
  • адыгейский 5 п 3а!~ $Адыгея

Были восстановлены сверкой с бумажной версией словаря ударения в нерегулярных формах:

  • близкий 3 п 3*а/с' @ _сравн._ блИже
  • лиловый 4 п 1а @ _сравн._ лиловЕе
  • большой 6 п 4в @ _кф_ велИк, великА, великО, великИ; _сравн._ бОльше

Топонимы на -ино, -цыно, -ово, -ево, -ёво даны в словаре в классическом склоняемом варианте: Бородино 8 с 1в. Склонять их или нет, зависит от приложения. В целях порождения текста имеет смысл генерировать современный несклоняемый вариант. Для разбора текста не лишним будет учесть их возможную склоняемость. Понять, что перед нами такая статья, можно по характерному окончанию леммы и по заглавной букве. Заглавную букву необходимо учитывать, иначе можно зацепить такие слова как вино, слово, марево.

Другие открытые грамматические словари в Сети

Программы на основе «Открытого словаря»