R1-T1: Incentivização Completa da Capacidade de Tradução em LLMs através de Raciocínio Aprendido
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
Autores: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
Resumo
Apesar dos avanços recentes em modelos de linguagem grandes aprimorados com raciocínio, como o DeepSeek-R1, a incorporação do raciocínio no momento da inferência na tradução automática, onde tradutores humanos naturalmente empregam cadeias de pensamento estruturadas e em camadas, ainda é pouco explorada. Métodos existentes ou projetam uma cadeia de pensamento fixa adaptada para uma sub-tarefa específica de tradução automática (por exemplo, tradução de literatura), ou dependem da síntese de cadeias de pensamento não alinhadas com as dos humanos e do ajuste fino supervisionado propenso ao esquecimento catastrófico, limitando sua adaptabilidade a cenários de tradução diversos. Este artigo apresenta o R1-Translator (R1-T1), um novo framework para alcançar o raciocínio no momento da inferência para tradução automática geral por meio de aprendizado por reforço (RL) com cadeias de pensamento alinhadas com humanos, compostas por seis padrões comuns. Nossa abordagem pioneira apresenta três inovações: (1) estendendo a tradução baseada em raciocínio além das sub-tarefas de tradução automática para seis idiomas e diversas tarefas (por exemplo, adaptação de domínio legal/médico, resolução de idiomas); (2) formalizando seis modelos de cadeias de pensamento curadas por especialistas que refletem estratégias híbridas humanas como parafraseamento consciente do contexto e tradução reversa; e (3) possibilitando a descoberta de cadeias de pensamento autoevolutivas e a adaptação contra o esquecimento por meio de RL com recompensas com restrição de KL. Resultados experimentais indicam uma melhoria constante no desempenho de tradução em 21 idiomas e 80 direções de tradução no conjunto de testes Flores-101, especialmente em relação aos 15 idiomas não vistos durante o treinamento, mantendo suas habilidades multilíngues gerais preservadas em comparação com o simples ajuste fino supervisionado.
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary