LLM-рассуждения для машинного перевода: генерация синтетических данных на основе токенов мышления
LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens
October 13, 2025
Авторы: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI
Аннотация
Крупные модели рассуждений (LRMs) открыли новые возможности в решении задач благодаря разработке естественного языкового мыслительного процесса перед ответом на запрос. Хотя их возможности хорошо известны в задачах математики и программирования, их влияние на задачу машинного перевода (MT) остается недостаточно изученным. В данной работе мы исследуем преимущества генерации промежуточных токенов при выполнении MT для множества языковых пар с разным уровнем ресурсной обеспеченности и в различных настройках. Мы обнаруживаем, что «токены мышления» не помогают LRMs лучше выполнять MT. Этот результат обобщается на модели, дообученные для рассуждения перед переводом с использованием дистиллированной цепочки рассуждений (CoT), вдохновленной практиками человеческих переводчиков. В частности, дообучение модели с синтетическими объяснениями CoT, детализирующими пошаговый процесс перевода, не превосходит стандартное дообучение на основе входных и выходных данных. Однако создание промежуточных токенов путем комбинирования результатов модульных стратегий подсказок, специфичных для перевода, приводит к улучшениям. Наши результаты подчеркивают, что вклад промежуточных токенов во время дообучения сильно зависит от наличия в них попыток перевода. В более широком смысле наши результаты показывают, что использование учителя для уточнения целевых переводов или расширения параллельных корпусов оказывает большее влияние, чем дистилляция их объяснений CoT в «мыслящие» модели MT.
English
Large reasoning models (LRMs) have led to new possibilities in terms of
problem-solving, through the devising of a natural language thought process
prior to answering a query. While their capabilities are well known across
mathematics and coding tasks, their impact on the task of machine translation
(MT) remains underexplored. In this work, we explore the benefits of the
generation of intermediate tokens when performing MT across multiple language
pairs of different levels of resourcedness and multiple setups. We find that
"thinking tokens" do not help LRMs better perform MT. This result generalizes
to models fine-tuned to reason before translating using distilled chain of
thought (CoT) inspired by human translators' practices. Specifically,
fine-tuning a model with synthetic CoT explanations detailing how to translate
step-by-step does not outperform standard input-output fine-tuning. However,
constructing the intermediate tokens by combining the outputs of modular
translation-specific prompting strategies results in improvements. Our findings
underscore that the contribution of intermediate tokens during fine-tuning
highly depends on the presence of translation attempts within them. More
broadly, our results suggest that using a teacher to refine target translations
or to expand parallel corpora is more impactful than distilling their CoT
explanations into "thinking" MT models.