TopXGen : Génération de données parallèles diversifiées par thème pour la traduction automatique à faibles ressources
TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation
August 12, 2025
papers.authors: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI
papers.abstract
Les LLM (modèles de langage de grande taille) ont démontré de bonnes performances en traduction automatique (TA) grâce à l'apprentissage en contexte (ICL), rivalisant avec les modèles supervisés pour les traductions vers des langues à ressources abondantes (HRL). Cependant, ils sont moins performants pour les traductions vers des langues à ressources limitées (LRL). La sélection d'exemples via une recherche de similarité et l'affinage supervisé apportent des améliorations, mais celles-ci sont limitées par la taille, la qualité et la diversité des jeux de données parallèles existants. Une technique courante en TA pour les langues à ressources limitées est la création de données parallèles synthétiques, dont la méthode la plus fréquente est la rétro-traduction, où des textes existants dans la langue cible sont automatiquement traduits dans la langue source. Cependant, cela suppose l'existence de textes de qualité et pertinents dans la langue cible, qui ne sont pas facilement disponibles pour de nombreuses LRL. Dans cet article, nous présentons TopXGen, une approche basée sur les LLM pour générer des données de haute qualité et diversifiées sur le plan thématique dans plusieurs LRL, qui peuvent ensuite être rétro-traduites pour produire des textes parallèles utiles et diversifiés pour l'ICL et l'affinage. Notre intuition est que, bien que les LLM peinent à traduire vers les LRL, leur capacité à bien traduire vers les HRL et leur multilingüisme leur permettent de générer des textes de qualité et naturels dans la langue cible, qui peuvent être bien traduits dans une langue source à ressources abondantes. Nous montrons que TopXGen améliore les performances de traduction des LLM lors de l'affinage et de l'apprentissage en contexte. Le code et les résultats sont disponibles à l'adresse https://github.com/ArmelRandy/topxgen.
English
LLMs have been shown to perform well in machine translation (MT) with the use
of in-context learning (ICL), rivaling supervised models when translating into
high-resource languages (HRLs). However, they lag behind when translating into
low-resource language (LRLs). Example selection via similarity search and
supervised fine-tuning help. However the improvements they give are limited by
the size, quality and diversity of existing parallel datasets. A common
technique in low-resource MT is synthetic parallel data creation, the most
frequent of which is backtranslation, whereby existing target-side texts are
automatically translated into the source language. However, this assumes the
existence of good quality and relevant target-side texts, which are not readily
available for many LRLs. In this paper, we present TopXGen, an
LLM-based approach for the generation of high quality and topic-diverse data in
multiple LRLs, which can then be backtranslated to produce useful and diverse
parallel texts for ICL and fine-tuning. Our intuition is that while LLMs
struggle to translate into LRLs, their ability to translate well into HRLs and
their multilinguality enable them to generate good quality, natural-sounding
target-side texts, which can be translated well into a high-resource source
language. We show that TopXGen boosts LLM translation performance
during fine-tuning and in-context learning. Code and outputs are available at
https://github.com/ArmelRandy/topxgen.