ChatPaper.aiChatPaper

Iniciativa de Datos de Lenguaje Abierto: Avanzando en la Traducción Automática de Bajo Recurso para el Karakalpak.

Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

September 6, 2024
Autores: Mukhammadsaid Mamasaidov, Abror Shopulatov
cs.AI

Resumen

Este estudio presenta varias contribuciones para el idioma karakalpako: un conjunto de datos de prueba FLORES+ traducido al karakalpako, corpus paralelos para uzbeko-karakalpako, ruso-karakalpako e inglés-karakalpako de 100,000 pares cada uno y modelos neuronales afinados de código abierto para la traducción entre estos idiomas. Nuestros experimentos comparan diferentes variantes de modelos y enfoques de entrenamiento, demostrando mejoras sobre las líneas de base existentes. Este trabajo, realizado como parte de la Iniciativa de Datos de Lenguaje Abierto (OLDI) tarea compartida, tiene como objetivo avanzar en las capacidades de traducción automática para el karakalpako y contribuir a la expansión de la diversidad lingüística en las tecnologías de procesamiento del lenguaje natural (NLP).
English
This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.

Summary

AI-Generated Summary

PDF113November 16, 2024