ChatPaper.aiChatPaper

TopXGen: Generazione di Dati Paralleli con Diversità Tematica per la Traduzione Automatica con Risorse Limitare

TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

August 12, 2025
Autori: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI

Abstract

È stato dimostrato che i LLM (Large Language Models) ottengono buoni risultati nella traduzione automatica (MT) grazie all'uso dell'apprendimento in contesto (ICL), rivaleggiando con modelli supervisionati quando si traducono in lingue ad alta risorsa (HRL). Tuttavia, rimangono indietro quando si traducono in lingue a bassa risorsa (LRL). La selezione di esempi tramite ricerca di similarità e la messa a punto supervisionata aiutano, ma i miglioramenti che offrono sono limitati dalle dimensioni, qualità e diversità dei dataset paralleli esistenti. Una tecnica comune nella MT a bassa risorsa è la creazione di dati paralleli sintetici, la più frequente delle quali è la retro-traduzione, in cui i testi esistenti sul lato target vengono tradotti automaticamente nella lingua sorgente. Tuttavia, questo presuppone l'esistenza di testi di buona qualità e rilevanti sul lato target, che non sono facilmente disponibili per molte LRL. In questo articolo, presentiamo TopXGen, un approccio basato su LLM per la generazione di dati di alta qualità e diversificati per argomento in più LRL, che possono poi essere retro-tradotti per produrre testi paralleli utili e diversificati per ICL e messa a punto. La nostra intuizione è che, sebbene i LLM abbiano difficoltà a tradurre in LRL, la loro capacità di tradurre bene in HRL e la loro multilinguità consentono loro di generare testi sul lato target di buona qualità e dal suono naturale, che possono essere tradotti efficacemente in una lingua sorgente ad alta risorsa. Dimostriamo che TopXGen migliora le prestazioni di traduzione dei LLM durante la messa a punto e l'apprendimento in contesto. Codice e output sono disponibili su https://github.com/ArmelRandy/topxgen.
English
LLMs have been shown to perform well in machine translation (MT) with the use of in-context learning (ICL), rivaling supervised models when translating into high-resource languages (HRLs). However, they lag behind when translating into low-resource language (LRLs). Example selection via similarity search and supervised fine-tuning help. However the improvements they give are limited by the size, quality and diversity of existing parallel datasets. A common technique in low-resource MT is synthetic parallel data creation, the most frequent of which is backtranslation, whereby existing target-side texts are automatically translated into the source language. However, this assumes the existence of good quality and relevant target-side texts, which are not readily available for many LRLs. In this paper, we present TopXGen, an LLM-based approach for the generation of high quality and topic-diverse data in multiple LRLs, which can then be backtranslated to produce useful and diverse parallel texts for ICL and fine-tuning. Our intuition is that while LLMs struggle to translate into LRLs, their ability to translate well into HRLs and their multilinguality enable them to generate good quality, natural-sounding target-side texts, which can be translated well into a high-resource source language. We show that TopXGen boosts LLM translation performance during fine-tuning and in-context learning. Code and outputs are available at https://github.com/ArmelRandy/topxgen.
PDF32August 13, 2025