Het dichten van de gaten: Het beperken van beloningsmanipulatie bij reinforcement learning voor meertalige vertaling

Samenvatting

Groottaalmodellen (LLM's) hebben een opmerkelijke capaciteit getoond voor machinaal vertalen bij taalparen met veel bronnen, maar hun prestaties bij vertalingen met weinig bronnen blijven achter. Bestaande methoden na de training zijn sterk afhankelijk van hoogwaardige parallelle data, die vaak schaars of niet beschikbaar zijn voor talen met weinig bronnen. In dit artikel introduceren we WALAR, een reinforcementtrainingsmethode die alleen monolinguale tekst gebruikt om de vertaalcapaciteiten van LLM's voor een groot aantal talen met weinig bronnen te verbeteren, terwijl hun prestaties voor talen met veel bronnen behouden blijven. Onze belangrijkste inzicht is gebaseerd op de observatie van faalmodi (of "gaten") in bestaande bron-gebaseerde meertalige kwaliteitsschatingsmodellen (QE). Reinforcement learning (RL) met deze QE-modellen heeft de neiging om dergelijke gaten te versterken, wat resulteert in zwakkere meertalige LLM's. Wij ontwikkelen technieken, waaronder woordalignering en taalalignering, om dergelijke gaten in WALAR's beloning voor RL-training te mitigeren. We hebben continu een LLM getraind die vertaling voor 101 talen ondersteunt met behulp van WALAR. De experimenten tonen aan dat ons nieuwe model LLaMAX, een van de sterkste open-source meertalige LLM's, met een grote marge overtreft op 1400 taalrichtingen van de Flores-101 dataset.

English

Large Language Models (LLMs) have demonstrated remarkable capability in machine translation on high-resource language pairs, yet their performance on low-resource translation still lags behind. Existing post-training methods rely heavily on high-quality parallel data, which are often scarce or unavailable for low-resource languages. In this paper, we introduce WALAR, a reinforcement training method using only monolingual text to elevate LLMs' translation capabilities on massive low-resource languages while retaining their performance on high-resource languages. Our key insight is based on the observation of failure modes (or "holes") in existing source-based multilingual quality estimation (QE) models. Reinforcement learning (RL) using these QE models tends to amplify such holes, resulting in poorer multilingual LLMs. We develop techniques including word alignment and language alignment to mitigate such holes in WALAR's reward for RL training. We continually trained an LLM supporting translation of 101 languages using WALAR. The experiments show that our new model outperforms LLaMAX, one of the strongest open-source multilingual LLMs by a large margin on 1400 language directions on Flores-101 dataset.

Het dichten van de gaten: Het beperken van beloningsmanipulatie bij reinforcement learning voor meertalige vertaling

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Samenvatting

Support