ChatPaper.aiChatPaper

La marée haute soulève tous les bateaux : les récompenses MTQE pour les idiomes améliorent la qualité générale de la traduction

A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality

January 9, 2026
papers.authors: Ishika Agarwal, Zhenlin He, Dhruva Patil, Dilek Hakkani-Tür
cs.AI

papers.abstract

Les expressions non compositionnelles (par exemple, les idiotismes, proverbes et métaphores) posent des défis significatifs aux systèmes de traduction automatique neuronale car leur sens ne peut être dérivé de la simple somme des mots individuels. Ces expressions codent une signification culturelle riche et possèdent à la fois des sens figurés et littéraux, rendant la traduction précise difficile. Étant donné que les modèles sont relativement performants pour traduire du texte compositionnel, nous étudions un fine-tuning de type GRPO utilisant des modèles d'Estimation de la Qualité de la Traduction Automatique (MTQE) comme fonctions de récompense pour entraîner les modèles à mieux traduire les idiotismes. En utilisant des jeux de données d'idiotismes chinois et hindi, nous constatons que les capacités de traduction des idiotismes s'améliorent d'environ 14 points, la traduction générale non idiomatique s'améliore implicitement d'environ 8 points, et les capacités de traduction multilingue (entraîné sur une langue, évalué sur une autre) s'améliorent d'environ 6 points. Globalement, notre travail quantifie l'écart de traduction non compositionnelle et offre des perspectives pour développer des LLM ayant une meilleure compréhension du langage figuré et interculturel.
English
Non-compositional expressions (e.g., idioms, proverbs, and metaphors) pose significant challenges for neural machine translation systems because their meanings cannot be derived from individual words alone. These expressions encode rich, cultural meaning, and have both figurative and literal meanings, making accurate translation difficult. Because models are fairly good at translating compositional text, we investigate GRPO-style fine-tuning using Machine Translation Quality Estimation (MTQE) models as reward functions to train models to better translate idioms. Using Chinese and Hindi idiom datasets, we find that idiom translation abilities improve by ~14 points, general, non-idiomatic translation implicitly improves by ~8 points, and cross-lingual translation abilities (trained on one language, evaluated on another) improves by ~6 points. Overall, our work quantifies the non-compositional translation gap and offers insights for developing LLMs with stronger cross-cultural and figurative language understanding.
PDF12January 31, 2026