R1-T1: Volledig stimuleren van vertaalcapaciteit in LLM's via redenerenleren
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
Auteurs: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
Samenvatting
Ondanks recente doorbraken in redenering-versterkte grote taalmodellen (LLM's) zoals DeepSeek-R1, is het integreren van redenering op het moment van inferentie in machinale vertaling (MT), waar menselijke vertalers natuurlijk gestructureerde, meerlagige redeneringsketens van gedachten (CoTs) gebruiken, nog onvoldoende onderzocht. Bestaande methoden ontwerpen ofwel een vaste CoT op maat voor een specifieke MT subtaak (bijv. literatuurvertaling), of vertrouwen op het synthetiseren van CoTs die niet in lijn zijn met menselijke CoTs en op supervisie gebaseerde fijne afstemming (SFT) die gevoelig is voor catastrofaal vergeten, waardoor hun aanpasbaarheid aan diverse vertalingsscenario's beperkt is. Dit artikel introduceert R1-Vertaler (R1-T1), een nieuw raamwerk om redenering op het moment van inferentie te bereiken voor algemene MT via reinforcement learning (RL) met op mensen afgestemde CoTs bestaande uit zes veelvoorkomende patronen. Onze aanpak pioniert drie innovaties: (1) het uitbreiden van redenering-gebaseerde vertaling buiten MT subtaken naar zes talen en diverse taken (bijv. juridische/medische domeinaanpassing, idioomoplossing); (2) het formaliseren van zes door experts samengestelde CoT-templates die hybride menselijke strategieën weerspiegelen zoals contextbewust parafraseren en terugvertalen; en (3) het mogelijk maken van zelf-evoluerende CoT-ontdekking en anti-vergeten aanpassing via RL met KL-beperkte beloningen. Experimentele resultaten tonen een gestage verbetering van de vertaalprestaties in 21 talen en 80 vertaalrichtingen op de Flores-101 testset, vooral in de 15 talen die niet tijdens de training zijn gezien, waarbij de algemene meertalige mogelijkheden behouden blijven in vergelijking met gewone SFT.
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary