Iniciativa de Dados de Linguagem Aberta: Avançando a Tradução Automática de Baixo Recurso para o Karakalpak
Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak
September 6, 2024
Autores: Mukhammadsaid Mamasaidov, Abror Shopulatov
cs.AI
Resumo
Este estudo apresenta várias contribuições para a língua Karakalpak: um conjunto de dados de teste de desenvolvimento FLORES+ traduzido para o Karakalpak, corpora paralelos para Uzbeque-Karakalpak, Russo-Karakalpak e Inglês-Karakalpak de 100.000 pares cada e modelos neurais ajustados finamente de código aberto para tradução entre esses idiomas. Nossos experimentos comparam diferentes variantes de modelos e abordagens de treinamento, demonstrando melhorias em relação às bases existentes. Este trabalho, realizado como parte da tarefa compartilhada da Iniciativa de Dados de Linguagem Aberta (OLDI), tem como objetivo avançar as capacidades de tradução automática para o Karakalpak e contribuir para a expansão da diversidade linguística nas tecnologias de PNL.
English
This study presents several contributions for the Karakalpak language: a
FLORES+ devtest dataset translated to Karakalpak, parallel corpora for
Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs
each and open-sourced fine-tuned neural models for translation across these
languages. Our experiments compare different model variants and training
approaches, demonstrating improvements over existing baselines. This work,
conducted as part of the Open Language Data Initiative (OLDI) shared task, aims
to advance machine translation capabilities for Karakalpak and contribute to
expanding linguistic diversity in NLP technologies.