Масштабирование моделей рассуждений для машинного перевода на этапе тестирования
Test-Time Scaling of Reasoning Models for Machine Translation
October 7, 2025
Авторы: Zihao Li, Shaoxiong Ji, Jörg Tiedemann
cs.AI
Аннотация
Масштабирование на этапе тестирования (Test-time scaling, TTS) улучшило производительность моделей рассуждения (Reasoning Models, RMs) в различных задачах, таких как математика и программирование, однако его эффективность в машинном переводе (MT) остается недостаточно изученной. В данной статье исследуется, повышает ли увеличение вычислительных ресурсов на этапе вывода качество перевода. Мы оцениваем 12 моделей RMs на разнообразных наборах данных для MT, охватывающих несколько доменов, рассматривая три сценария: прямой перевод, экстраполяция с принудительным рассуждением и пост-редактирование. Наши результаты показывают, что для универсальных моделей RMs TTS обеспечивает ограниченные и нестабильные преимущества для прямого перевода, при этом производительность быстро достигает плато. Однако эффективность TTS раскрывается при доменно-специфической тонкой настройке, которая согласует процесс рассуждения модели с требованиями задачи, приводя к стабильным улучшениям вплоть до оптимальной, самостоятельно определяемой глубины рассуждения. Мы также обнаруживаем, что принуждение модели к рассуждению за пределы её естественной точки остановки последовательно ухудшает качество перевода. В отличие от этого, TTS оказывается высокоэффективным в контексте пост-редактирования, надежно превращая самокоррекцию в полезный процесс. Эти результаты указывают на то, что ценность вычислительных ресурсов на этапе вывода в MT заключается не в улучшении одношагового перевода с использованием универсальных моделей, а в целевых приложениях, таких как многошаговые процессы самокоррекции, а также в сочетании с моделями, специализированными для конкретных задач.
English
Test-time scaling (TTS) has enhanced the performance of Reasoning Models
(RMs) on various tasks such as math and coding, yet its efficacy in machine
translation (MT) remains underexplored. This paper investigates whether
increased inference-time computation improves translation quality. We evaluate
12 RMs across a diverse suite of MT benchmarks spanning multiple domains,
examining three scenarios: direct translation, forced-reasoning extrapolation,
and post-editing. Our findings show that for general-purpose RMs, TTS provides
limited and inconsistent benefits for direct translation, with performance
quickly plateauing. However, the effectiveness of TTS is unlocked by
domain-specific fine-tuning, which aligns a model's reasoning process with task
requirements, leading to consistent improvements up to an optimal,
self-determined reasoning depth. We also find that forcing a model to reason
beyond its natural stopping point consistently degrades translation quality. In
contrast, TTS proves highly effective in a post-editing context, reliably
turning self-correction into a beneficial process. These results indicate that
the value of inference-time computation in MT lies not in enhancing single-pass
translation with general models, but in targeted applications like multi-step,
self-correction workflows and in conjunction with task-specialized models.