R1-T1 : Encourager pleinement la capacité de traduction dans les LLM via le raisonnement d'apprentissage
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
Auteurs: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
Résumé
Malgré les récentes avancées dans les modèles de langage de grande taille améliorés par le raisonnement, tels que DeepSeek-R1, l'incorporation du raisonnement au moment de l'inférence dans la traduction automatique, où les traducteurs humains emploient naturellement un raisonnement structuré et multicouche, reste peu explorée. Les méthodes existantes conçoivent soit une chaîne de pensées fixe adaptée à une tâche spécifique de traduction automatique (par exemple, la traduction de la littérature), soit reposent sur la synthèse de chaînes de pensées non alignées avec celles des humains et sur un ajustement fin supervisé sujet à l'oubli catastrophique, limitant leur adaptabilité à divers scénarios de traduction. Cet article présente R1-Translator (R1-T1), un nouveau cadre pour réaliser le raisonnement au moment de l'inférence pour la traduction automatique générale via l'apprentissage par renforcement (RL) avec des chaînes de pensées alignées sur l'humain comprenant six schémas communs. Notre approche inaugure trois innovations : (1) étendre la traduction basée sur le raisonnement au-delà des sous-tâches de traduction automatique à six langues et diverses tâches (par exemple, l'adaptation au domaine juridique/médical, la résolution des idiomes) ; (2) formaliser six modèles de chaînes de pensées expertes qui reflètent des stratégies humaines hybrides telles que la paraphrase consciente du contexte et la traduction inverse ; et (3) permettre la découverte auto-évolutive de chaînes de pensées et l'adaptation anti-oubli à travers RL avec des récompenses contraintes par KL. Les résultats expérimentaux indiquent une amélioration constante des performances de traduction dans 21 langues et 80 directions de traduction sur l'ensemble de test Flores-101, en particulier pour les 15 langues non vues lors de l'entraînement, avec ses capacités multilingues générales préservées par rapport à un simple ajustement fin supervisé.
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary