ChatPaper.aiChatPaper

TopXGen: Geração de Dados Paralelos com Diversidade Temática para Tradução Automática com Poucos Recursos

TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

August 12, 2025
Autores: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI

Resumo

Os LLMs (Modelos de Linguagem de Grande Escala) têm demonstrado bom desempenho em tradução automática (MT) com o uso de aprendizado em contexto (ICL), rivalizando com modelos supervisionados ao traduzir para idiomas de alta disponibilidade de recursos (HRLs). No entanto, eles ficam aquém ao traduzir para idiomas de baixa disponibilidade de recursos (LRLs). A seleção de exemplos por meio de busca de similaridade e ajuste fino supervisionado ajudam, mas as melhorias que proporcionam são limitadas pelo tamanho, qualidade e diversidade dos conjuntos de dados paralelos existentes. Uma técnica comum em MT de baixa disponibilidade de recursos é a criação de dados paralelos sintéticos, sendo a mais frequente a retro-tradução, na qual textos existentes no idioma de destino são automaticamente traduzidos para o idioma de origem. No entanto, isso pressupõe a existência de textos de alta qualidade e relevantes no idioma de destino, que não estão prontamente disponíveis para muitos LRLs. Neste artigo, apresentamos o TopXGen, uma abordagem baseada em LLM para a geração de dados de alta qualidade e diversidade temática em múltiplos LRLs, que podem então ser retro-traduzidos para produzir textos paralelos úteis e diversos para ICL e ajuste fino. Nossa intuição é que, embora os LLMs tenham dificuldade em traduzir para LRLs, sua capacidade de traduzir bem para HRLs e sua multilingüidade permitem que gerem textos de destino de boa qualidade e naturais, que podem ser bem traduzidos para um idioma de origem de alta disponibilidade de recursos. Mostramos que o TopXGen melhora o desempenho de tradução dos LLMs durante o ajuste fino e o aprendizado em contexto. O código e as saídas estão disponíveis em https://github.com/ArmelRandy/topxgen.
English
LLMs have been shown to perform well in machine translation (MT) with the use of in-context learning (ICL), rivaling supervised models when translating into high-resource languages (HRLs). However, they lag behind when translating into low-resource language (LRLs). Example selection via similarity search and supervised fine-tuning help. However the improvements they give are limited by the size, quality and diversity of existing parallel datasets. A common technique in low-resource MT is synthetic parallel data creation, the most frequent of which is backtranslation, whereby existing target-side texts are automatically translated into the source language. However, this assumes the existence of good quality and relevant target-side texts, which are not readily available for many LRLs. In this paper, we present TopXGen, an LLM-based approach for the generation of high quality and topic-diverse data in multiple LRLs, which can then be backtranslated to produce useful and diverse parallel texts for ICL and fine-tuning. Our intuition is that while LLMs struggle to translate into LRLs, their ability to translate well into HRLs and their multilinguality enable them to generate good quality, natural-sounding target-side texts, which can be translated well into a high-resource source language. We show that TopXGen boosts LLM translation performance during fine-tuning and in-context learning. Code and outputs are available at https://github.com/ArmelRandy/topxgen.
PDF32August 13, 2025