¿Son los Grandes Modelos de Razonamiento Buenos Evaluadores de Traducción? Análisis y Mejora del Rendimiento
Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost
October 23, 2025
Autores: Runzhe Zhan, Zhihong Huang, Xinyi Yang, Lidia S. Chao, Min Yang, Derek F. Wong
cs.AI
Resumen
Los recientes avances en modelos de razonamiento a gran escala (LRM) han introducido un proceso intermedio de "pensamiento" previo a la generación de respuestas finales, mejorando sus capacidades de razonamiento en tareas complejas posteriores. Sin embargo, el potencial de los LRM como evaluadores de la calidad de la traducción automática (TA) sigue estando poco explorado. Presentamos el primer análisis sistemático del enfoque "LRM como juez" en la evaluación de TA. Identificamos desafíos clave, revelando que los LRM requieren materiales de evaluación adaptados, tienden a "sobrepensar" instancias más simples y presentan problemas con los mecanismos de puntuación que conducen a sobreestimaciones. Para abordar esto, proponemos calibrar el pensamiento de los LRM entrenándolos con trayectorias de pensamiento sintéticas similares a las humanas. Nuestros experimentos en los benchmarks de WMT24 Metrics demuestran que este enfoque reduce considerablemente el costo computacional de pensamiento en ~35x mientras mejora simultáneamente el rendimiento evaluador en diferentes escalas de LRM desde 7B hasta 32B (por ejemplo, R1-Distill-Qwen-7B logra una mejora de +8.7 puntos de correlación). Estos hallazgos resaltan el potencial de los LRM eficientemente calibrados para avanzar en la evaluación automática de TA de grano fino.
English
Recent advancements in large reasoning models (LRMs) have introduced an
intermediate "thinking" process prior to generating final answers, improving
their reasoning capabilities on complex downstream tasks. However, the
potential of LRMs as evaluators for machine translation (MT) quality remains
underexplored. We provides the first systematic analysis of LRM-as-a-judge in
MT evaluation. We identify key challenges, revealing LRMs require tailored
evaluation materials, tend to "overthink" simpler instances and have issues
with scoring mechanisms leading to overestimation. To address these, we propose
to calibrate LRM thinking by training them on synthetic, human-like thinking
trajectories. Our experiments on WMT24 Metrics benchmarks demonstrate that this
approach largely reduces thinking budgets by ~35x while concurrently improving
evaluation performance across different LRM scales from 7B to 32B (e.g.,
R1-Distill-Qwen-7B achieves a +8.7 correlation point improvement). These
findings highlight the potential of efficiently calibrated LRMs to advance
fine-grained automatic MT evaluation.