R1-T1 : Encourager pleinement la capacité de traduction dans les LLM via le raisonnement d'apprentissage

papers.abstract

Malgré les récentes avancées dans les modèles de langage de grande taille améliorés par le raisonnement, tels que DeepSeek-R1, l'incorporation du raisonnement au moment de l'inférence dans la traduction automatique, où les traducteurs humains emploient naturellement un raisonnement structuré et multicouche, reste peu explorée. Les méthodes existantes conçoivent soit une chaîne de pensées fixe adaptée à une tâche spécifique de traduction automatique (par exemple, la traduction de la littérature), soit reposent sur la synthèse de chaînes de pensées non alignées avec celles des humains et sur un ajustement fin supervisé sujet à l'oubli catastrophique, limitant leur adaptabilité à divers scénarios de traduction. Cet article présente R1-Translator (R1-T1), un nouveau cadre pour réaliser le raisonnement au moment de l'inférence pour la traduction automatique générale via l'apprentissage par renforcement (RL) avec des chaînes de pensées alignées sur l'humain comprenant six schémas communs. Notre approche inaugure trois innovations : (1) étendre la traduction basée sur le raisonnement au-delà des sous-tâches de traduction automatique à six langues et diverses tâches (par exemple, l'adaptation au domaine juridique/médical, la résolution des idiomes) ; (2) formaliser six modèles de chaînes de pensées expertes qui reflètent des stratégies humaines hybrides telles que la paraphrase consciente du contexte et la traduction inverse ; et (3) permettre la découverte auto-évolutive de chaînes de pensées et l'adaptation anti-oubli à travers RL avec des récompenses contraintes par KL. Les résultats expérimentaux indiquent une amélioration constante des performances de traduction dans 21 langues et 80 directions de traduction sur l'ensemble de test Flores-101, en particulier pour les 15 langues non vues lors de l'entraînement, avec ses capacités multilingues générales préservées par rapport à un simple ajustement fin supervisé.

English

Despite recent breakthroughs in reasoning-enhanced large language models (LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine translation (MT), where human translators naturally employ structured, multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored. Existing methods either design a fixed CoT tailored for a specific MT sub-task (e.g., literature translation), or rely on synthesizing CoTs unaligned with humans and supervised fine-tuning (SFT) prone to catastrophic forgetting, limiting their adaptability to diverse translation scenarios. This paper introduces R1-Translator (R1-T1), a novel framework to achieve inference-time reasoning for general MT via reinforcement learning (RL) with human-aligned CoTs comprising six common patterns. Our approach pioneers three innovations: (1) extending reasoning-based translation beyond MT sub-tasks to six languages and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution); (2) formalizing six expert-curated CoT templates that mirror hybrid human strategies like context-aware paraphrasing and back translation; and (3) enabling self-evolving CoT discovery and anti-forgetting adaptation through RL with KL-constrained rewards. Experimental results indicate a steady translation performance improvement in 21 languages and 80 translation directions on Flores-101 test set, especially on the 15 languages unseen from training, with its general multilingual abilities preserved compared with plain SFT.

R1-T1 : Encourager pleinement la capacité de traduction dans les LLM via le raisonnement d'apprentissage

R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

papers.abstract

Support