ChatPaper.aiChatPaper

Инициатива по открытым языковым данным: продвижение машинного перевода с недостаточными ресурсами для каракалпакского языка.

Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

September 6, 2024
Авторы: Mukhammadsaid Mamasaidov, Abror Shopulatov
cs.AI

Аннотация

Это исследование представляет несколько вкладов для каракалпакского языка: набор данных FLORES+ devtest, переведенный на каракалпакский, параллельные корпуса для узбекского-каракалпакского, русско-каракалпакского и англо-каракалпакского языков по 100 000 пар в каждом и открытые донастройки нейронных моделей для перевода между этими языками. Наши эксперименты сравнивают различные варианты моделей и подходы к обучению, демонстрируя улучшения по сравнению с существующими базовыми уровнями. Эта работа, проведенная в рамках инициативы по открытым языковым данным (OLDI), нацелена на развитие возможностей машинного перевода для каракалпакского языка и вклад в расширение лингвистического разнообразия в технологиях обработки естественного языка.
English
This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.

Summary

AI-Generated Summary

PDF113November 16, 2024