R1-T1: 추론 학습을 통한 대형 언어 모델의 번역 능력 완전 인센티브화
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning
February 27, 2025
저자: Minggui He, Yilun Liu, Shimin Tao, Yuanchang Luo, Hongyong Zeng, Chang Su, Li Zhang, Hongxia Ma, Daimeng Wei, Weibin Meng, Hao Yang, Boxing Chen, Osamu Yoshie
cs.AI
초록
최근 DeepSeek-R1과 같은 추론 강화 대형 언어 모델(LLMs)의 혁신적인 발전에도 불구하고, 인간 번역가들이 자연스럽게 사용하는 구조화된 다층적 사고 사슬(CoTs)을 기계 번역(MT)에 통합하는 추론 시점 사고는 아직 충분히 탐구되지 않았다. 기존 방법들은 특정 MT 하위 작업(예: 문학 번역)에 맞춰 설계된 고정된 CoT를 사용하거나, 인간과 일치하지 않는 CoT를 합성하고 감독 미세 조정(SFT)에 의존하여 다양한 번역 시나리오에 대한 적응성을 제한하는 치명적 망각 문제를 겪고 있다. 본 논문은 인간과 일치하는 6가지 일반적인 패턴으로 구성된 CoT를 활용한 강화 학습(RL)을 통해 일반적인 MT를 위한 추론 시점 사고를 달성하는 새로운 프레임워크인 R1-Translator(R1-T1)를 소개한다. 우리의 접근 방식은 세 가지 혁신을 선도한다: (1) MT 하위 작업을 넘어 6개 언어와 다양한 작업(예: 법률/의학 도메인 적응, 관용구 해결)에 대한 추론 기반 번역을 확장; (2) 상황 인지적 패러프레이징 및 역번역과 같은 인간의 하이브리드 전략을 반영한 6가지 전문가가 선별한 CoT 템플릿을 공식화; (3) KL 제약 보상을 통한 RL을 통해 자기 진화적 CoT 발견 및 망각 방지 적응을 가능하게 함. 실험 결과는 Flores-101 테스트 세트에서 21개 언어와 80개 번역 방향에서 특히 훈련에서 보지 못한 15개 언어에서 꾸준한 번역 성능 향상을 보여주며, 일반적인 다국어 능력이 일반 SFT와 비교하여 유지됨을 나타낸다.
English
Despite recent breakthroughs in reasoning-enhanced large language models
(LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine
translation (MT), where human translators naturally employ structured,
multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored.
Existing methods either design a fixed CoT tailored for a specific MT sub-task
(e.g., literature translation), or rely on synthesizing CoTs unaligned with
humans and supervised fine-tuning (SFT) prone to catastrophic forgetting,
limiting their adaptability to diverse translation scenarios. This paper
introduces R1-Translator (R1-T1), a novel framework to achieve inference-time
reasoning for general MT via reinforcement learning (RL) with human-aligned
CoTs comprising six common patterns. Our approach pioneers three innovations:
(1) extending reasoning-based translation beyond MT sub-tasks to six languages
and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution);
(2) formalizing six expert-curated CoT templates that mirror hybrid human
strategies like context-aware paraphrasing and back translation; and (3)
enabling self-evolving CoT discovery and anti-forgetting adaptation through RL
with KL-constrained rewards. Experimental results indicate a steady translation
performance improvement in 21 languages and 80 translation directions on
Flores-101 test set, especially on the 15 languages unseen from training, with
its general multilingual abilities preserved compared with plain SFT.Summary
AI-Generated Summary