R1-T1: Incentivizzazione Completa delle Capacità di Traduzione nei Modelli Linguistici di Grande Dimensione attraverso l'Apprendimento del Ragionamento
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
Autori: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
Abstract
Nonostante i recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) potenziati dal ragionamento, come DeepSeek-R1, l'integrazione del ragionamento in fase di inferenza nella traduzione automatica (MT), dove i traduttori umani impiegano naturalmente catene di pensiero (CoTs) strutturate e multilivello, rimane ancora poco esplorata. I metodi esistenti progettano una CoT fissa adatta a un sotto-compito specifico di MT (ad esempio, la traduzione letteraria) o si basano sulla sintesi di CoTs non allineate con gli umani e su un fine-tuning supervisionato (SFT) soggetto a dimenticanza catastrofica, limitando la loro adattabilità a scenari di traduzione diversi. Questo articolo introduce R1-Translator (R1-T1), un nuovo framework per ottenere il ragionamento in fase di inferenza per la MT generale tramite apprendimento per rinforzo (RL) con CoTs allineate agli umani che comprendono sei modelli comuni. Il nostro approccio introduce tre innovazioni: (1) estendere la traduzione basata sul ragionamento oltre i sotto-compiti di MT a sei lingue e compiti diversi (ad esempio, adattamento a domini legali/medici, risoluzione di idiomi); (2) formalizzare sei modelli di CoT curati da esperti che riflettono strategie ibride umane come la parafrasi consapevole del contesto e la traduzione inversa; e (3) abilitare la scoperta di CoT auto-evolventi e l'adattamento anti-dimenticanza attraverso RL con ricompense vincolate da KL. I risultati sperimentali indicano un miglioramento costante delle prestazioni di traduzione in 21 lingue e 80 direzioni di traduzione sul set di test Flores-101, in particolare sulle 15 lingue non viste durante l'addestramento, con le sue capacità multilingue generali preservate rispetto al semplice SFT.
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary