ChatPaper.aiChatPaper

TopXGen: Generación de Datos Paralelos con Diversidad Temática para Traducción Automática con Recursos Limitados

TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

August 12, 2025
Autores: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI

Resumen

Se ha demostrado que los LLM (Modelos de Lenguaje de Gran Escala) tienen un buen desempeño en traducción automática (MT) mediante el uso de aprendizaje en contexto (ICL), rivalizando con modelos supervisados al traducir a idiomas de alta disponibilidad de recursos (HRLs). Sin embargo, su rendimiento es inferior al traducir a idiomas de baja disponibilidad de recursos (LRLs). La selección de ejemplos mediante búsqueda por similitud y el ajuste fino supervisado ayudan, pero las mejoras que ofrecen están limitadas por el tamaño, la calidad y la diversidad de los conjuntos de datos paralelos existentes. Una técnica común en MT de baja disponibilidad de recursos es la creación de datos paralelos sintéticos, siendo la más frecuente la retro-traducción, donde textos existentes en el idioma objetivo se traducen automáticamente al idioma fuente. Sin embargo, esto supone la existencia de textos de alta calidad y relevantes en el idioma objetivo, los cuales no están fácilmente disponibles para muchos LRLs. En este artículo, presentamos TopXGen, un enfoque basado en LLM para la generación de datos de alta calidad y diversidad temática en múltiples LRLs, que luego pueden ser retro-traducidos para producir textos paralelos útiles y diversos para ICL y ajuste fino. Nuestra intuición es que, aunque los LLM tienen dificultades para traducir a LRLs, su capacidad para traducir bien a HRLs y su multilingüismo les permiten generar textos de alta calidad y naturales en el idioma objetivo, los cuales pueden traducirse bien a un idioma fuente de alta disponibilidad de recursos. Demostramos que TopXGen mejora el rendimiento de traducción de LLM durante el ajuste fino y el aprendizaje en contexto. El código y los resultados están disponibles en https://github.com/ArmelRandy/topxgen.
English
LLMs have been shown to perform well in machine translation (MT) with the use of in-context learning (ICL), rivaling supervised models when translating into high-resource languages (HRLs). However, they lag behind when translating into low-resource language (LRLs). Example selection via similarity search and supervised fine-tuning help. However the improvements they give are limited by the size, quality and diversity of existing parallel datasets. A common technique in low-resource MT is synthetic parallel data creation, the most frequent of which is backtranslation, whereby existing target-side texts are automatically translated into the source language. However, this assumes the existence of good quality and relevant target-side texts, which are not readily available for many LRLs. In this paper, we present TopXGen, an LLM-based approach for the generation of high quality and topic-diverse data in multiple LRLs, which can then be backtranslated to produce useful and diverse parallel texts for ICL and fine-tuning. Our intuition is that while LLMs struggle to translate into LRLs, their ability to translate well into HRLs and their multilinguality enable them to generate good quality, natural-sounding target-side texts, which can be translated well into a high-resource source language. We show that TopXGen boosts LLM translation performance during fine-tuning and in-context learning. Code and outputs are available at https://github.com/ArmelRandy/topxgen.
PDF32August 13, 2025