Versterkend leren bewerkstelligt contextueel leren voor het vertalen van ongeziene talen.

Samenvatting

Eerder werk heeft aangetoond dat grote taalmodellen (LLMs) onbekende of laag-resource talen kunnen vertalen door middel van voortgezette training of zelfs door het coderen van een grammaticaboek in hun context. Beide methoden hebben echter de neiging om overmatig te passen op specifieke talen, met beperkte zero-shot transfer tijdens het testen. Om extreem laag-resource talen op grote schaal te vertalen, stellen wij dat LLMs de meta-vaardigheid moeten verwerven om in-context linguïstische kennis te benutten in plaats van specifieke talen te memoriseren. In dit artikel stellen we een reinforcement learning (RL) aanpak voor voor vertaling van onbekende talen met een rijke linguïstische context, waarbij we een oppervlakkige vertaalmetriek (chrF) als beloning gebruiken. Empirisch gezien, ondanks de lichte beloning, extraheren en passen onze met RL getrainde modellen effectief relevante linguïstische informatie uit de geboden context toe, wat leidt tot betere vertalingen van volledig onbekende talen dan in-context learning of supervised fine-tuning. Onze analyses suggereren dat op uitkomsten gebaseerde RL verder kan reiken dan conventionele redeneertaken zoals wiskunde en coderen, om te dienen als een recept voor taalleren uit context.

English

Prior work has shown that large language models (LLMs) can translate unseen or low-resource languages by undergoing continued training or even by encoding a grammar book in their context. However, both methods typically overfit specific languages, with limited zero-shot transfer at test time. To translate extremely low-resource languages at scale, we argue that LLMs must acquire the meta-skill of utilizing in-context linguistic knowledge rather than memorizing specific languages. In this paper, we propose a reinforcement learning (RL) approach to unseen language translation given rich linguistic context, using a surface-level translation metric (chrF) as the reward. Empirically, despite the lightweight reward, our RL-trained models effectively extract and apply relevant linguistic information from the provided context, leading to better translations on completely unseen languages than in-context learning or supervised fine-tuning. Our analyses suggest that outcome-based RL can extend beyond conventional reasoning tasks like math and coding to serve as a recipe for language learning from context.