ChatPaper.aiChatPaper

TopXGen: Themenvielfältige parallele Datengenerierung für maschinelle Übersetzung mit begrenzten Ressourcen

TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

August 12, 2025
papers.authors: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI

papers.abstract

Es wurde gezeigt, dass LLMs (Large Language Models) bei der maschinellen Übersetzung (MT) mit der Verwendung von In-Context-Learning (ICL) gute Leistungen erbringen und dabei überwachte Modelle bei der Übersetzung in Hochressourcensprachen (HRLs) übertreffen. Allerdings hinken sie bei der Übersetzung in Niedrigressourcensprachen (LRLs) hinterher. Die Auswahl von Beispielen durch Ähnlichkeitssuche und überwachtes Feinabstimmen hilft, doch die dadurch erzielten Verbesserungen sind durch die Größe, Qualität und Vielfalt der vorhandenen parallelen Datensätze begrenzt. Eine gängige Technik in der Niedrigressourcen-MT ist die Erstellung synthetischer paralleler Daten, wobei die häufigste Methode die Rückübersetzung ist, bei der vorhandene Zielsprachentexte automatisch in die Ausgangssprache übersetzt werden. Dies setzt jedoch das Vorhandensein von qualitativ hochwertigen und relevanten Zielsprachentexten voraus, die für viele LRLs nicht ohne Weiteres verfügbar sind. In diesem Artikel stellen wir TopXGen vor, einen LLM-basierten Ansatz zur Erzeugung von qualitativ hochwertigen und thematisch vielfältigen Daten in mehreren LRLs, die dann rückübersetzt werden können, um nützliche und vielfältige parallele Texte für ICL und Feinabstimmung zu erzeugen. Unsere Intuition ist, dass LLMs zwar Schwierigkeiten haben, in LRLs zu übersetzen, ihre Fähigkeit, gut in HRLs zu übersetzen, und ihre Mehrsprachigkeit es ihnen jedoch ermöglichen, qualitativ hochwertige, natürlich klingende Zielsprachentexte zu generieren, die gut in eine Hochressourcen-Ausgangssprache übersetzt werden können. Wir zeigen, dass TopXGen die Übersetzungsleistung von LLMs während des Feinabstimmens und des In-Context-Learnings steigert. Code und Ergebnisse sind unter https://github.com/ArmelRandy/topxgen verfügbar.
English
LLMs have been shown to perform well in machine translation (MT) with the use of in-context learning (ICL), rivaling supervised models when translating into high-resource languages (HRLs). However, they lag behind when translating into low-resource language (LRLs). Example selection via similarity search and supervised fine-tuning help. However the improvements they give are limited by the size, quality and diversity of existing parallel datasets. A common technique in low-resource MT is synthetic parallel data creation, the most frequent of which is backtranslation, whereby existing target-side texts are automatically translated into the source language. However, this assumes the existence of good quality and relevant target-side texts, which are not readily available for many LRLs. In this paper, we present TopXGen, an LLM-based approach for the generation of high quality and topic-diverse data in multiple LRLs, which can then be backtranslated to produce useful and diverse parallel texts for ICL and fine-tuning. Our intuition is that while LLMs struggle to translate into LRLs, their ability to translate well into HRLs and their multilinguality enable them to generate good quality, natural-sounding target-side texts, which can be translated well into a high-resource source language. We show that TopXGen boosts LLM translation performance during fine-tuning and in-context learning. Code and outputs are available at https://github.com/ArmelRandy/topxgen.
PDF32August 13, 2025