ChatPaper.aiChatPaper

TopXGen: Onderwerp-diverse parallelle datageneratie voor machinevertaling met beperkte bronnen

TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

August 12, 2025
Auteurs: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI

Samenvatting

LLM's hebben bewezen goed te presteren in machinaal vertalen (MT) door gebruik te maken van in-context learning (ICL), waarbij ze zelfs supervisie-gebaseerde modellen evenaren bij het vertalen naar hoog-resource talen (HRL's). Echter, blijven ze achter bij het vertalen naar laag-resource talen (LRL's). Voorbeeldselectie via gelijkeniszoeken en supervisie-gebaseerde fine-tuning helpen, maar de verbeteringen die ze bieden worden beperkt door de omvang, kwaliteit en diversiteit van bestaande parallelle datasets. Een veelgebruikte techniek in laag-resource MT is het creëren van synthetische parallelle data, waarvan backtranslation de meest voorkomende is, waarbij bestaande teksten aan de doelzijde automatisch worden vertaald naar de brontaal. Dit veronderstelt echter het bestaan van hoogwaardige en relevante teksten aan de doelzijde, die niet gemakkelijk beschikbaar zijn voor veel LRL's. In dit artikel presenteren we TopXGen, een LLM-gebaseerde aanpak voor het genereren van hoogwaardige en thematisch diverse data in meerdere LRL's, die vervolgens kunnen worden terugvertaald om nuttige en diverse parallelle teksten te produceren voor ICL en fine-tuning. Onze intuïtie is dat hoewel LLM's moeite hebben met vertalen naar LRL's, hun vermogen om goed te vertalen naar HRL's en hun meertaligheid hen in staat stellen hoogwaardige, natuurlijk klinkende teksten aan de doelzijde te genereren, die goed kunnen worden vertaald naar een hoog-resource brontaal. We tonen aan dat TopXGen de vertaalprestaties van LLM's verbetert tijdens fine-tuning en in-context learning. Code en uitvoer zijn beschikbaar op https://github.com/ArmelRandy/topxgen.
English
LLMs have been shown to perform well in machine translation (MT) with the use of in-context learning (ICL), rivaling supervised models when translating into high-resource languages (HRLs). However, they lag behind when translating into low-resource language (LRLs). Example selection via similarity search and supervised fine-tuning help. However the improvements they give are limited by the size, quality and diversity of existing parallel datasets. A common technique in low-resource MT is synthetic parallel data creation, the most frequent of which is backtranslation, whereby existing target-side texts are automatically translated into the source language. However, this assumes the existence of good quality and relevant target-side texts, which are not readily available for many LRLs. In this paper, we present TopXGen, an LLM-based approach for the generation of high quality and topic-diverse data in multiple LRLs, which can then be backtranslated to produce useful and diverse parallel texts for ICL and fine-tuning. Our intuition is that while LLMs struggle to translate into LRLs, their ability to translate well into HRLs and their multilinguality enable them to generate good quality, natural-sounding target-side texts, which can be translated well into a high-resource source language. We show that TopXGen boosts LLM translation performance during fine-tuning and in-context learning. Code and outputs are available at https://github.com/ArmelRandy/topxgen.
PDF32August 13, 2025