ChatPaper.aiChatPaper

TopXGen: Генерация тематически разнообразных параллельных данных для машинного перевода с ограниченными ресурсами

TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

August 12, 2025
Авторы: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют высокие результаты в машинном переводе (MT) благодаря использованию обучения в контексте (ICL), конкурируя с моделями, обученными с учителем, при переводе на языки с большим объемом ресурсов (HRL). Однако их производительность отстает при переводе на языки с ограниченными ресурсами (LRL). Выбор примеров с помощью поиска по сходству и тонкая настройка с учителем помогают, но их улучшения ограничены размером, качеством и разнообразием существующих параллельных наборов данных. Распространенной техникой в MT для языков с ограниченными ресурсами является создание синтетических параллельных данных, наиболее частым из которых является обратный перевод, когда существующие тексты на целевом языке автоматически переводятся на исходный язык. Однако это предполагает наличие качественных и релевантных текстов на целевом языке, которые недоступны для многих LRL. В данной статье мы представляем TopXGen, подход на основе LLM для генерации высококачественных и тематически разнообразных данных на нескольких LRL, которые затем могут быть обратно переведены для создания полезных и разнообразных параллельных текстов для ICL и тонкой настройки. Наша интуиция заключается в том, что хотя LLM испытывают трудности с переводом на LRL, их способность хорошо переводить на HRL и их многоязычность позволяют им генерировать качественные, естественно звучащие тексты на целевом языке, которые могут быть хорошо переведены на исходный язык с большим объемом ресурсов. Мы показываем, что TopXGen повышает производительность LLM в переводе как при тонкой настройке, так и при обучении в контексте. Код и результаты доступны по адресу https://github.com/ArmelRandy/topxgen.
English
LLMs have been shown to perform well in machine translation (MT) with the use of in-context learning (ICL), rivaling supervised models when translating into high-resource languages (HRLs). However, they lag behind when translating into low-resource language (LRLs). Example selection via similarity search and supervised fine-tuning help. However the improvements they give are limited by the size, quality and diversity of existing parallel datasets. A common technique in low-resource MT is synthetic parallel data creation, the most frequent of which is backtranslation, whereby existing target-side texts are automatically translated into the source language. However, this assumes the existence of good quality and relevant target-side texts, which are not readily available for many LRLs. In this paper, we present TopXGen, an LLM-based approach for the generation of high quality and topic-diverse data in multiple LRLs, which can then be backtranslated to produce useful and diverse parallel texts for ICL and fine-tuning. Our intuition is that while LLMs struggle to translate into LRLs, their ability to translate well into HRLs and their multilinguality enable them to generate good quality, natural-sounding target-side texts, which can be translated well into a high-resource source language. We show that TopXGen boosts LLM translation performance during fine-tuning and in-context learning. Code and outputs are available at https://github.com/ArmelRandy/topxgen.
PDF32August 13, 2025