ChatPaper.aiChatPaper

구멍 메우기: 다국어 번역을 위한 강화 학습에서의 보안 취약점 완화

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

March 13, 2026
저자: Yifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa, Lei Li
cs.AI

초록

대규모 언어 모델(LLM)은 고자원 언어 쌍에 대한 기계 번역에서 뛰어난 능력을 보여왔으나, 저자원 언어 번역 성능은 여전히 뒤처지고 있습니다. 기존의 사후 훈련 방법은 고품질 병렬 데이터에 크게 의존하는데, 이러한 데이터는 저자원 언어의 경우 희귀하거나 존재하지 않는 경우가 많습니다. 본 논문에서는 단일 언어 텍스트만을 사용하여 LLM의 대규모 저자원 언어 번역 능력을 향상시키면서도 고자원 언어 성능은 유지하는 강화 훈련 방법인 WALAR를 소개합니다. 우리의 핵심 통찰은 기존 원천 기반 다국어 품질 추정(QE) 모델의 실패 모드(또는 "결함") 관찰에 기반합니다. 이러한 QE 모델을 이용한 강화 학습(RL)은 이러한 결함을 증폭시키는 경향이 있어 다국어 LLM의 성능을 저하시킵니다. 우리는 WALAR의 RL 훈련 보상에서 이러한 결함을 완화하기 위해 단어 정렬 및 언어 정렬 기법을 개발했습니다. WALAR를 사용하여 101개 언어 번역을 지원하는 LLM을 지속적으로 훈련시켰습니다. 실험 결과, 우리의 새로운 모델은 Flores-101 데이터셋의 1400개 언어 방향에서 가장 강력한 오픈소스 다국어 LLM 중 하나인 LLaMA-X를 큰 차이로 능가하는 성능을 보여주었습니다.
English
Large Language Models (LLMs) have demonstrated remarkable capability in machine translation on high-resource language pairs, yet their performance on low-resource translation still lags behind. Existing post-training methods rely heavily on high-quality parallel data, which are often scarce or unavailable for low-resource languages. In this paper, we introduce WALAR, a reinforcement training method using only monolingual text to elevate LLMs' translation capabilities on massive low-resource languages while retaining their performance on high-resource languages. Our key insight is based on the observation of failure modes (or "holes") in existing source-based multilingual quality estimation (QE) models. Reinforcement learning (RL) using these QE models tends to amplify such holes, resulting in poorer multilingual LLMs. We develop techniques including word alignment and language alignment to mitigate such holes in WALAR's reward for RL training. We continually trained an LLM supporting translation of 101 languages using WALAR. The experiments show that our new model outperforms LLaMAX, one of the strongest open-source multilingual LLMs by a large margin on 1400 language directions on Flores-101 dataset.
PDF11March 21, 2026