Testzeit-Skalierung von Reasoning-Modellen für maschinelle Übersetzung
Test-Time Scaling of Reasoning Models for Machine Translation
October 7, 2025
papers.authors: Zihao Li, Shaoxiong Ji, Jörg Tiedemann
cs.AI
papers.abstract
Test-Time Scaling (TTS) hat die Leistung von Reasoning Models (RMs) bei verschiedenen Aufgaben wie Mathematik und Programmierung verbessert, doch seine Wirksamkeit in der maschinellen Übersetzung (MT) bleibt weitgehend unerforscht. Diese Arbeit untersucht, ob ein erhöhter Rechenaufwand während der Inferenz die Übersetzungsqualität verbessert. Wir evaluieren 12 RMs anhand einer vielfältigen Reihe von MT-Benchmarks, die mehrere Domänen abdecken, und betrachten drei Szenarien: direkte Übersetzung, erzwungene Extrapolation durch Reasoning und Nachbearbeitung. Unsere Ergebnisse zeigen, dass TTS bei allgemeinen RMs nur begrenzte und inkonsistente Vorteile für die direkte Übersetzung bietet, wobei die Leistung schnell ein Plateau erreicht. Die Wirksamkeit von TTS wird jedoch durch domänenspezifisches Fine-Tuning freigesetzt, das den Reasoning-Prozess eines Modells an die Anforderungen der Aufgabe anpasst und zu konsistenten Verbesserungen bis zu einer optimalen, selbstbestimmten Reasoning-Tiefe führt. Wir stellen auch fest, dass das Erzwingen von Reasoning über den natürlichen Stopppunkt hinaus die Übersetzungsqualität konsequent verschlechtert. Im Gegensatz dazu erweist sich TTS im Kontext der Nachbearbeitung als äußerst effektiv, indem es Selbstkorrektur zu einem vorteilhaften Prozess macht. Diese Ergebnisse deuten darauf hin, dass der Wert von Inferenzzeit-Rechenleistung in der MT nicht in der Verbesserung von Einzelpass-Übersetzungen mit allgemeinen Modellen liegt, sondern in gezielten Anwendungen wie mehrstufigen Selbstkorrektur-Workflows und in Kombination mit aufgaben-spezialisierten Modellen.
English
Test-time scaling (TTS) has enhanced the performance of Reasoning Models
(RMs) on various tasks such as math and coding, yet its efficacy in machine
translation (MT) remains underexplored. This paper investigates whether
increased inference-time computation improves translation quality. We evaluate
12 RMs across a diverse suite of MT benchmarks spanning multiple domains,
examining three scenarios: direct translation, forced-reasoning extrapolation,
and post-editing. Our findings show that for general-purpose RMs, TTS provides
limited and inconsistent benefits for direct translation, with performance
quickly plateauing. However, the effectiveness of TTS is unlocked by
domain-specific fine-tuning, which aligns a model's reasoning process with task
requirements, leading to consistent improvements up to an optimal,
self-determined reasoning depth. We also find that forcing a model to reason
beyond its natural stopping point consistently degrades translation quality. In
contrast, TTS proves highly effective in a post-editing context, reliably
turning self-correction into a beneficial process. These results indicate that
the value of inference-time computation in MT lies not in enhancing single-pass
translation with general models, but in targeted applications like multi-step,
self-correction workflows and in conjunction with task-specialized models.