Eine steigende Flut hebt alle Boote: MTQE-Belohnungen für Idiome verbessern die allgemeine Übersetzungsqualität
A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality
January 9, 2026
papers.authors: Ishika Agarwal, Zhenlin He, Dhruva Patil, Dilek Hakkani-Tür
cs.AI
papers.abstract
Nicht-kompositionelle Ausdrücke (z.B. Idiome, Sprichwörter und Metaphern) stellen erhebliche Herausforderungen für neuronale maschinelle Übersetzungssysteme dar, da ihre Bedeutung nicht aus einzelnen Wörtern allein abgeleitet werden kann. Diese Ausdrücke kodieren reiche, kulturelle Bedeutung und haben sowohl figurative als auch wörtliche Bedeutungen, was eine genaue Übersetzung erschwert. Da Modelle recht gut darin sind, kompositionelle Texte zu übersetzen, untersuchen wir GRPO-artiges Fine-Tuning unter Verwendung von Machine Translation Quality Estimation (MTQE)-Modellen als Belohnungsfunktionen, um Modelle darin zu trainieren, Idiome besser zu übersetzen. Unter Verwendung von chinesischen und hindi Idiom-Datensätzen stellen wir fest, dass sich die Idiom-Übersetzungsfähigkeiten um ~14 Punkte verbessern, die allgemeine, nicht-idiomatische Übersetzung sich implizit um ~8 Punkte verbessert und die cross-lingualen Übersetzungsfähigkeiten (trainiert in einer Sprache, evaluiert in einer anderen) um ~6 Punkte zulegen. Insgesamt quantifiziert unsere Arbeit die nicht-kompositionelle Übersetzungslücke und bietet Erkenntnisse für die Entwicklung von LLMs mit einem stärkeren cross-kulturellen und figurativen Sprachverständnis.
English
Non-compositional expressions (e.g., idioms, proverbs, and metaphors) pose significant challenges for neural machine translation systems because their meanings cannot be derived from individual words alone. These expressions encode rich, cultural meaning, and have both figurative and literal meanings, making accurate translation difficult. Because models are fairly good at translating compositional text, we investigate GRPO-style fine-tuning using Machine Translation Quality Estimation (MTQE) models as reward functions to train models to better translate idioms. Using Chinese and Hindi idiom datasets, we find that idiom translation abilities improve by ~14 points, general, non-idiomatic translation implicitly improves by ~8 points, and cross-lingual translation abilities (trained on one language, evaluated on another) improves by ~6 points. Overall, our work quantifies the non-compositional translation gap and offers insights for developing LLMs with stronger cross-cultural and figurative language understanding.