ChatPaper.aiChatPaper

Iniciativa de Dados de Linguagem Aberta: Avançando a Tradução Automática de Baixo Recurso para o Karakalpak

Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

September 6, 2024
Autores: Mukhammadsaid Mamasaidov, Abror Shopulatov
cs.AI

Resumo

Este estudo apresenta várias contribuições para a língua Karakalpak: um conjunto de dados de teste de desenvolvimento FLORES+ traduzido para o Karakalpak, corpora paralelos para Uzbeque-Karakalpak, Russo-Karakalpak e Inglês-Karakalpak de 100.000 pares cada e modelos neurais ajustados finamente de código aberto para tradução entre esses idiomas. Nossos experimentos comparam diferentes variantes de modelos e abordagens de treinamento, demonstrando melhorias em relação às bases existentes. Este trabalho, realizado como parte da tarefa compartilhada da Iniciativa de Dados de Linguagem Aberta (OLDI), tem como objetivo avançar as capacidades de tradução automática para o Karakalpak e contribuir para a expansão da diversidade linguística nas tecnologias de PNL.
English
This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.
PDF113November 16, 2024