ChatPaper.aiChatPaper

R1-T1: Incentivización Completa de la Capacidad de Traducción en LLMs mediante Aprendizaje de Razonamiento

R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

February 27, 2025
Autores: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI

Resumen

A pesar de los recientes avances en los grandes modelos de lenguaje (LLMs) mejorados con razonamiento, como DeepSeek-R1, la incorporación del razonamiento en tiempo de inferencia en la traducción automática (MT), donde los traductores humanos emplean naturalmente cadenas de pensamiento (CoTs) estructuradas y multicapa, sigue siendo un área poco explorada. Los métodos existentes o bien diseñan una CoT fija adaptada para una subtarea específica de MT (por ejemplo, traducción literaria), o bien dependen de la síntesis de CoTs no alineadas con los humanos y del ajuste fino supervisado (SFT) propenso al olvido catastrófico, lo que limita su adaptabilidad a diversos escenarios de traducción. Este artículo presenta R1-Translator (R1-T1), un marco novedoso para lograr el razonamiento en tiempo de inferencia para MT general mediante el aprendizaje por refuerzo (RL) con CoTs alineadas con los humanos que comprenden seis patrones comunes. Nuestro enfoque introduce tres innovaciones: (1) extender la traducción basada en razonamiento más allá de las subtareas de MT a seis idiomas y diversas tareas (por ejemplo, adaptación de dominio legal/médico, resolución de modismos); (2) formalizar seis plantillas de CoT curadas por expertos que reflejan estrategias humanas híbridas como la paráfrasis consciente del contexto y la traducción inversa; y (3) permitir el descubrimiento autoevolutivo de CoT y la adaptación anti-olvido mediante RL con recompensas restringidas por KL. Los resultados experimentales indican una mejora constante en el rendimiento de la traducción en 21 idiomas y 80 direcciones de traducción en el conjunto de pruebas Flores-101, especialmente en los 15 idiomas no vistos durante el entrenamiento, preservando sus habilidades multilingües generales en comparación con el SFT convencional.
English
Despite recent breakthroughs in reasoning-enhanced large language models (LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine translation (MT), where human translators naturally employ structured, multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored. Existing methods either design a fixed CoT tailored for a specific MT sub-task (e.g., literature translation), or rely on synthesizing CoTs unaligned with humans and supervised fine-tuning (SFT) prone to catastrophic forgetting, limiting their adaptability to diverse translation scenarios. This paper introduces R1-Translator (R1-T1), a novel framework to achieve inference-time reasoning for general MT via reinforcement learning (RL) with human-aligned CoTs comprising six common patterns. Our approach pioneers three innovations: (1) extending reasoning-based translation beyond MT sub-tasks to six languages and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution); (2) formalizing six expert-curated CoT templates that mirror hybrid human strategies like context-aware paraphrasing and back translation; and (3) enabling self-evolving CoT discovery and anti-forgetting adaptation through RL with KL-constrained rewards. Experimental results indicate a steady translation performance improvement in 21 languages and 80 translation directions on Flores-101 test set, especially on the 15 languages unseen from training, with its general multilingual abilities preserved compared with plain SFT.

Summary

AI-Generated Summary

PDF92February 28, 2025