R1-T1: Incentivizzazione Completa delle Capacità di Traduzione nei Modelli Linguistici di Grande Dimensione attraverso l'Apprendimento del Ragionamento

Abstract

Nonostante i recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) potenziati dal ragionamento, come DeepSeek-R1, l'integrazione del ragionamento in fase di inferenza nella traduzione automatica (MT), dove i traduttori umani impiegano naturalmente catene di pensiero (CoTs) strutturate e multilivello, rimane ancora poco esplorata. I metodi esistenti progettano una CoT fissa adatta a un sotto-compito specifico di MT (ad esempio, la traduzione letteraria) o si basano sulla sintesi di CoTs non allineate con gli umani e su un fine-tuning supervisionato (SFT) soggetto a dimenticanza catastrofica, limitando la loro adattabilità a scenari di traduzione diversi. Questo articolo introduce R1-Translator (R1-T1), un nuovo framework per ottenere il ragionamento in fase di inferenza per la MT generale tramite apprendimento per rinforzo (RL) con CoTs allineate agli umani che comprendono sei modelli comuni. Il nostro approccio introduce tre innovazioni: (1) estendere la traduzione basata sul ragionamento oltre i sotto-compiti di MT a sei lingue e compiti diversi (ad esempio, adattamento a domini legali/medici, risoluzione di idiomi); (2) formalizzare sei modelli di CoT curati da esperti che riflettono strategie ibride umane come la parafrasi consapevole del contesto e la traduzione inversa; e (3) abilitare la scoperta di CoT auto-evolventi e l'adattamento anti-dimenticanza attraverso RL con ricompense vincolate da KL. I risultati sperimentali indicano un miglioramento costante delle prestazioni di traduzione in 21 lingue e 80 direzioni di traduzione sul set di test Flores-101, in particolare sulle 15 lingue non viste durante l'addestramento, con le sue capacità multilingue generali preservate rispetto al semplice SFT.

English

Despite recent breakthroughs in reasoning-enhanced large language models (LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine translation (MT), where human translators naturally employ structured, multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored. Existing methods either design a fixed CoT tailored for a specific MT sub-task (e.g., literature translation), or rely on synthesizing CoTs unaligned with humans and supervised fine-tuning (SFT) prone to catastrophic forgetting, limiting their adaptability to diverse translation scenarios. This paper introduces R1-Translator (R1-T1), a novel framework to achieve inference-time reasoning for general MT via reinforcement learning (RL) with human-aligned CoTs comprising six common patterns. Our approach pioneers three innovations: (1) extending reasoning-based translation beyond MT sub-tasks to six languages and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution); (2) formalizing six expert-curated CoT templates that mirror hybrid human strategies like context-aware paraphrasing and back translation; and (3) enabling self-evolving CoT discovery and anti-forgetting adaptation through RL with KL-constrained rewards. Experimental results indicate a steady translation performance improvement in 21 languages and 80 translation directions on Flores-101 test set, especially on the 15 languages unseen from training, with its general multilingual abilities preserved compared with plain SFT.

R1-T1: Incentivizzazione Completa delle Capacità di Traduzione nei Modelli Linguistici di Grande Dimensione attraverso l'Apprendimento del Ragionamento

R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

Abstract

Support