R1-T1: Vollständige Anreizsetzung für Übersetzungsfähigkeiten in LLMs durch Reasoning-Lernen
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
Autoren: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
Zusammenfassung
Trotz jüngster Durchbrüche bei großen Sprachmodellen (LLMs) mit verbessertem logischen Denken wie DeepSeek-R1 ist die Integration von Inferenzzeit-Reasoning in die maschinelle Übersetzung (MT), bei der menschliche Übersetzer natürlicherweise strukturierte, mehrschichtige Gedankenketten (Chain-of-Thoughts, CoTs) verwenden, noch wenig erforscht. Bestehende Methoden entwerfen entweder eine feste CoT, die auf eine spezifische MT-Teilaufgabe zugeschnitten ist (z.B. Literaturübersetzung), oder verlassen sich auf die Synthese von CoTs, die nicht mit menschlichen Denkweisen übereinstimmen, und auf überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT), das anfällig für katastrophales Vergessen ist, was ihre Anpassungsfähigkeit an verschiedene Übersetzungsszenarien einschränkt. Dieses Papier stellt R1-Translator (R1-T1) vor, ein neuartiges Framework, das Inferenzzeit-Reasoning für allgemeine MT durch Reinforcement Learning (RL) mit menschlich ausgerichteten CoTs, die sechs gängige Muster umfassen, ermöglicht. Unser Ansatz führt drei Innovationen ein: (1) die Erweiterung des reasoning-basierten Übersetzens über MT-Teilaufgaben hinaus auf sechs Sprachen und diverse Aufgaben (z.B. rechtliche/medizinische Domänenanpassung, Idiomauflösung); (2) die Formalisierung von sechs von Experten kuratierten CoT-Vorlagen, die hybride menschliche Strategien wie kontextbewusstes Paraphrasieren und Rückübersetzung widerspiegeln; und (3) die Ermöglichung der selbstentwickelnden CoT-Entdeckung und Anti-Vergessen-Anpassung durch RL mit KL-beschränkten Belohnungen. Experimentelle Ergebnisse
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary