TopXGen: 저자원 기계 번역을 위한 주제 다양화 병렬 데이터 생성
TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation
August 12, 2025
저자: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI
초록
LLM(대형 언어 모델)은 in-context learning(ICL)을 활용하여 기계 번역(MT)에서 우수한 성능을 보이며, 고자원 언어(HRL)로의 번역에서는 지도 학습 모델과도 경쟁력을 보입니다. 그러나 저자원 언어(LRL)로의 번역에서는 뒤처지는 모습을 보입니다. 유사성 검색을 통한 예제 선택과 지도 미세 조정이 도움이 되지만, 이러한 개선은 기존 병렬 데이터셋의 크기, 품질 및 다양성에 의해 제한됩니다. 저자원 기계 번역에서 흔히 사용되는 기술 중 하나는 합성 병렬 데이터 생성이며, 그 중 가장 빈번하게 사용되는 방법은 역번역(backtranslation)입니다. 이는 기존의 타겟 언어 텍스트를 자동으로 소스 언어로 번역하는 방식입니다. 그러나 이 방법은 고품질이고 관련성 높은 타겟 언어 텍스트의 존재를 전제로 하는데, 많은 저자원 언어에서는 이러한 텍스트를 쉽게 구할 수 없습니다. 본 논문에서는 여러 저자원 언어에서 고품질이고 주제가 다양한 데이터를 생성하기 위한 LLM 기반 접근법인 TopXGen을 소개합니다. 이렇게 생성된 데이터는 역번역되어 ICL과 미세 조정을 위한 유용하고 다양한 병렬 텍스트를 생성하는 데 사용될 수 있습니다. 우리의 직관은 LLM이 저자원 언어로 번역하는 데는 어려움을 겪지만, 고자원 언어로 잘 번역할 수 있는 능력과 다국어 지원 기능을 통해 자연스럽고 고품질의 타겟 언어 텍스트를 생성할 수 있으며, 이를 고자원 소스 언어로 잘 번역할 수 있다는 것입니다. 우리는 TopXGen이 미세 조정과 in-context learning 중에 LLM 번역 성능을 크게 향상시킨다는 것을 보여줍니다. 코드와 출력 결과는 https://github.com/ArmelRandy/topxgen에서 확인할 수 있습니다.
English
LLMs have been shown to perform well in machine translation (MT) with the use
of in-context learning (ICL), rivaling supervised models when translating into
high-resource languages (HRLs). However, they lag behind when translating into
low-resource language (LRLs). Example selection via similarity search and
supervised fine-tuning help. However the improvements they give are limited by
the size, quality and diversity of existing parallel datasets. A common
technique in low-resource MT is synthetic parallel data creation, the most
frequent of which is backtranslation, whereby existing target-side texts are
automatically translated into the source language. However, this assumes the
existence of good quality and relevant target-side texts, which are not readily
available for many LRLs. In this paper, we present TopXGen, an
LLM-based approach for the generation of high quality and topic-diverse data in
multiple LRLs, which can then be backtranslated to produce useful and diverse
parallel texts for ICL and fine-tuning. Our intuition is that while LLMs
struggle to translate into LRLs, their ability to translate well into HRLs and
their multilinguality enable them to generate good quality, natural-sounding
target-side texts, which can be translated well into a high-resource source
language. We show that TopXGen boosts LLM translation performance
during fine-tuning and in-context learning. Code and outputs are available at
https://github.com/ArmelRandy/topxgen.