¿Son los Grandes Modelos de Razonamiento Buenos Evaluadores de Traducción? Análisis y Mejora del Rendimiento

Resumen

Los recientes avances en modelos de razonamiento a gran escala (LRM) han introducido un proceso intermedio de "pensamiento" previo a la generación de respuestas finales, mejorando sus capacidades de razonamiento en tareas complejas posteriores. Sin embargo, el potencial de los LRM como evaluadores de la calidad de la traducción automática (TA) sigue estando poco explorado. Presentamos el primer análisis sistemático del enfoque "LRM como juez" en la evaluación de TA. Identificamos desafíos clave, revelando que los LRM requieren materiales de evaluación adaptados, tienden a "sobrepensar" instancias más simples y presentan problemas con los mecanismos de puntuación que conducen a sobreestimaciones. Para abordar esto, proponemos calibrar el pensamiento de los LRM entrenándolos con trayectorias de pensamiento sintéticas similares a las humanas. Nuestros experimentos en los benchmarks de WMT24 Metrics demuestran que este enfoque reduce considerablemente el costo computacional de pensamiento en ~35x mientras mejora simultáneamente el rendimiento evaluador en diferentes escalas de LRM desde 7B hasta 32B (por ejemplo, R1-Distill-Qwen-7B logra una mejora de +8.7 puntos de correlación). Estos hallazgos resaltan el potencial de los LRM eficientemente calibrados para avanzar en la evaluación automática de TA de grano fino.

English

Recent advancements in large reasoning models (LRMs) have introduced an intermediate "thinking" process prior to generating final answers, improving their reasoning capabilities on complex downstream tasks. However, the potential of LRMs as evaluators for machine translation (MT) quality remains underexplored. We provides the first systematic analysis of LRM-as-a-judge in MT evaluation. We identify key challenges, revealing LRMs require tailored evaluation materials, tend to "overthink" simpler instances and have issues with scoring mechanisms leading to overestimation. To address these, we propose to calibrate LRM thinking by training them on synthetic, human-like thinking trajectories. Our experiments on WMT24 Metrics benchmarks demonstrate that this approach largely reduces thinking budgets by ~35x while concurrently improving evaluation performance across different LRM scales from 7B to 32B (e.g., R1-Distill-Qwen-7B achieves a +8.7 correlation point improvement). These findings highlight the potential of efficiently calibrated LRMs to advance fine-grained automatic MT evaluation.

¿Son los Grandes Modelos de Razonamiento Buenos Evaluadores de Traducción? Análisis y Mejora del Rendimiento

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

Resumen

Support