ChatPaper.aiChatPaper

Растущая приливная волна поднимает все лодки: вознаграждение MTQE за идиомы повышает общее качество перевода

A Rising Tide Lifts All Boats: MTQE Rewards for Idioms Improve General Translation Quality

January 9, 2026
Авторы: Ishika Agarwal, Zhenlin He, Dhruva Patil, Dilek Hakkani-Tür
cs.AI

Аннотация

Некомпозиционные выражения (например, идиомы, пословицы и метафоры) создают значительные трудности для систем нейронного машинного перевода, поскольку их значение не может быть выведено из отдельных слов. Эти выражения кодируют богатое культурное значение и обладают как переносным, так и буквальным смыслом, что затрудняет точный перевод. Поскольку модели достаточно хорошо справляются с переводом композиционного текста, мы исследуем тонкую настройку в стиле GRPO с использованием моделей оценки качества машинного перевода (MTQE) в качестве функций вознаграждения для обучения моделей лучшему переводу идиом. Используя наборы данных китайских и хинди идиом, мы обнаружили, что способности к переводу идиом улучшаются примерно на 14 пунктов, общие неидиоматические переводы неявно улучшаются на ~8 пунктов, а кросс-лингвистические способности перевода (обучение на одном языке, оценка на другом) улучшаются на ~6 пунктов. В целом, наша работа количественно оценивает разрыв в переводе некопмозиционных выражений и предлагает insights для разработки больших языковых моделей с более глубоким межкультурным и образным пониманием языка.
English
Non-compositional expressions (e.g., idioms, proverbs, and metaphors) pose significant challenges for neural machine translation systems because their meanings cannot be derived from individual words alone. These expressions encode rich, cultural meaning, and have both figurative and literal meanings, making accurate translation difficult. Because models are fairly good at translating compositional text, we investigate GRPO-style fine-tuning using Machine Translation Quality Estimation (MTQE) models as reward functions to train models to better translate idioms. Using Chinese and Hindi idiom datasets, we find that idiom translation abilities improve by ~14 points, general, non-idiomatic translation implicitly improves by ~8 points, and cross-lingual translation abilities (trained on one language, evaluated on another) improves by ~6 points. Overall, our work quantifies the non-compositional translation gap and offers insights for developing LLMs with stronger cross-cultural and figurative language understanding.
PDF12January 31, 2026