TopXGen: 低リソース機械翻訳のためのトピック多様な並列データ生成
TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation
August 12, 2025
著者: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI
要旨
LLM(大規模言語モデル)は、インコンテキスト学習(ICL)を利用することで機械翻訳(MT)において優れた性能を発揮し、高資源言語(HRL)への翻訳においては教師ありモデルと同等の性能を示すことが実証されている。しかし、低資源言語(LRL)への翻訳では性能が劣る。類似性検索による例の選択や教師ありファインチューニングは改善に寄与するが、その効果は既存の並列データセットの規模、品質、多様性によって制限される。低資源MTにおける一般的な手法は、合成並列データの作成であり、その中でも最も頻繁に用いられるのが逆翻訳である。これは、既存のターゲット側テキストを自動的にソース言語に翻訳するものである。しかし、この手法は、高品質で関連性のあるターゲット側テキストの存在を前提としており、多くのLRLでは容易に利用できない。本論文では、複数のLRLにおいて高品質でトピック多様なデータを生成するLLMベースのアプローチであるTopXGenを提案する。生成されたデータは逆翻訳され、ICLやファインチューニングに有用で多様な並列テキストを生成する。我々の直感は、LLMがLRLへの翻訳に苦戦する一方で、HRLへの翻訳能力と多言語性を活かすことで、高品質で自然なターゲット側テキストを生成し、それを高資源ソース言語にうまく翻訳できるというものである。TopXGenは、ファインチューニングおよびインコンテキスト学習中のLLM翻訳性能を向上させることを示す。コードと出力はhttps://github.com/ArmelRandy/topxgenで公開されている。
English
LLMs have been shown to perform well in machine translation (MT) with the use
of in-context learning (ICL), rivaling supervised models when translating into
high-resource languages (HRLs). However, they lag behind when translating into
low-resource language (LRLs). Example selection via similarity search and
supervised fine-tuning help. However the improvements they give are limited by
the size, quality and diversity of existing parallel datasets. A common
technique in low-resource MT is synthetic parallel data creation, the most
frequent of which is backtranslation, whereby existing target-side texts are
automatically translated into the source language. However, this assumes the
existence of good quality and relevant target-side texts, which are not readily
available for many LRLs. In this paper, we present TopXGen, an
LLM-based approach for the generation of high quality and topic-diverse data in
multiple LRLs, which can then be backtranslated to produce useful and diverse
parallel texts for ICL and fine-tuning. Our intuition is that while LLMs
struggle to translate into LRLs, their ability to translate well into HRLs and
their multilinguality enable them to generate good quality, natural-sounding
target-side texts, which can be translated well into a high-resource source
language. We show that TopXGen boosts LLM translation performance
during fine-tuning and in-context learning. Code and outputs are available at
https://github.com/ArmelRandy/topxgen.