Una marea alta levanta todos los barcos: Las recompensas MTQE para modismos mejoran la calidad de la traducción general.
A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality
January 9, 2026
Autores: Ishika Agarwal, Zhenlin He, Dhruva Patil, Dilek Hakkani-Tür
cs.AI
Resumen
Las expresiones no compositivas (por ejemplo, modismos, refranes y metáforas) plantean desafíos significativos para los sistemas de traducción automática neuronal porque sus significados no pueden derivarse únicamente de las palabras individuales. Estas expresiones codifican un significado cultural rico y poseen tanto sentidos figurados como literales, lo que dificulta una traducción precisa. Dado que los modelos son bastante buenos traduciendo texto compositivo, investigamos el ajuste fino de estilo GRPO utilizando modelos de Estimación de Calidad de Traducción Automática (MTQE) como funciones de recompensa para entrenar a los modelos a traducir mejor los modismos. Utilizando conjuntos de datos de modismos en chino e hindi, encontramos que la capacidad de traducción de modismos mejora en aproximadamente 14 puntos, la traducción general no idiomática mejora implícitamente en aproximadamente 8 puntos, y las capacidades de traducción cross-lingüística (entrenadas en un idioma y evaluadas en otro) mejoran en aproximadamente 6 puntos. En general, nuestro trabajo cuantifica la brecha de traducción no compositiva y ofrece perspectivas para desarrollar LLMs con una mayor comprensión del lenguaje figurativo y transcultural.
English
Non-compositional expressions (e.g., idioms, proverbs, and metaphors) pose significant challenges for neural machine translation systems because their meanings cannot be derived from individual words alone. These expressions encode rich, cultural meaning, and have both figurative and literal meanings, making accurate translation difficult. Because models are fairly good at translating compositional text, we investigate GRPO-style fine-tuning using Machine Translation Quality Estimation (MTQE) models as reward functions to train models to better translate idioms. Using Chinese and Hindi idiom datasets, we find that idiom translation abilities improve by ~14 points, general, non-idiomatic translation implicitly improves by ~8 points, and cross-lingual translation abilities (trained on one language, evaluated on another) improves by ~6 points. Overall, our work quantifies the non-compositional translation gap and offers insights for developing LLMs with stronger cross-cultural and figurative language understanding.