TopXGen: Themenvielfältige parallele Datengenerierung für maschinelle Übersetzung mit begrenzten Ressourcen
TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation
August 12, 2025
papers.authors: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI
papers.abstract
Es wurde gezeigt, dass LLMs (Large Language Models) bei der maschinellen Übersetzung (MT) mit der Verwendung von In-Context-Learning (ICL) gute Leistungen erbringen und dabei überwachte Modelle bei der Übersetzung in Hochressourcensprachen (HRLs) übertreffen. Allerdings hinken sie bei der Übersetzung in Niedrigressourcensprachen (LRLs) hinterher. Die Auswahl von Beispielen durch Ähnlichkeitssuche und überwachtes Feinabstimmen hilft, doch die dadurch erzielten Verbesserungen sind durch die Größe, Qualität und Vielfalt der vorhandenen parallelen Datensätze begrenzt. Eine gängige Technik in der Niedrigressourcen-MT ist die Erstellung synthetischer paralleler Daten, wobei die häufigste Methode die Rückübersetzung ist, bei der vorhandene Zielsprachentexte automatisch in die Ausgangssprache übersetzt werden. Dies setzt jedoch das Vorhandensein von qualitativ hochwertigen und relevanten Zielsprachentexten voraus, die für viele LRLs nicht ohne Weiteres verfügbar sind. In diesem Artikel stellen wir TopXGen vor, einen LLM-basierten Ansatz zur Erzeugung von qualitativ hochwertigen und thematisch vielfältigen Daten in mehreren LRLs, die dann rückübersetzt werden können, um nützliche und vielfältige parallele Texte für ICL und Feinabstimmung zu erzeugen. Unsere Intuition ist, dass LLMs zwar Schwierigkeiten haben, in LRLs zu übersetzen, ihre Fähigkeit, gut in HRLs zu übersetzen, und ihre Mehrsprachigkeit es ihnen jedoch ermöglichen, qualitativ hochwertige, natürlich klingende Zielsprachentexte zu generieren, die gut in eine Hochressourcen-Ausgangssprache übersetzt werden können. Wir zeigen, dass TopXGen die Übersetzungsleistung von LLMs während des Feinabstimmens und des In-Context-Learnings steigert. Code und Ergebnisse sind unter https://github.com/ArmelRandy/topxgen verfügbar.
English
LLMs have been shown to perform well in machine translation (MT) with the use
of in-context learning (ICL), rivaling supervised models when translating into
high-resource languages (HRLs). However, they lag behind when translating into
low-resource language (LRLs). Example selection via similarity search and
supervised fine-tuning help. However the improvements they give are limited by
the size, quality and diversity of existing parallel datasets. A common
technique in low-resource MT is synthetic parallel data creation, the most
frequent of which is backtranslation, whereby existing target-side texts are
automatically translated into the source language. However, this assumes the
existence of good quality and relevant target-side texts, which are not readily
available for many LRLs. In this paper, we present TopXGen, an
LLM-based approach for the generation of high quality and topic-diverse data in
multiple LRLs, which can then be backtranslated to produce useful and diverse
parallel texts for ICL and fine-tuning. Our intuition is that while LLMs
struggle to translate into LRLs, their ability to translate well into HRLs and
their multilinguality enable them to generate good quality, natural-sounding
target-side texts, which can be translated well into a high-resource source
language. We show that TopXGen boosts LLM translation performance
during fine-tuning and in-context learning. Code and outputs are available at
https://github.com/ArmelRandy/topxgen.