"Бэлиг" обогатил "Яндекс" миллионами бурятских предложений для ИИ

"Бэлиг" обогатил "Яндекс" миллионами бурятских предложений для ИИ

"Бэлиг" обогатил "Яндекс" миллионами бурятских предложений для ИИ

Республиканский центр "Бэлиг" передал компании "Яндекс" обширный монокорпус бурятского языка, насчитывающий более двух миллионов предложений. Этот массив данных, объемом 2112,97 мегабайт, послужит основой для обучения больших языковых моделей (LLM) бурятскому языку, что откроет новые возможности для развития цифровых сервисов на этом языке.

Работа по сбору текстов разных стилей велась центром "Бэлиг" с мая по сентябрь текущего года. В корпус вошли материалы из учебников и пособий, изданных центром, а также художественная и публицистическая литература.

Проект получил поддержку соседних регионов. По предложению "Бэлиг", министр образования и науки Валерий Поздняков обратился к администрациям Агинского и Усть-Ордынского Бурятских округов с просьбой содействовать сбору текстов на бурятском языке. В результате, в корпус были включены работы различных стилей из этих округов.

Источник: Telegram-канал "Вести Бурятия"

Топ

Лента новостей