Aprendizado por Reforço Induz Aprendizagem Contextual de Tradução de Línguas Não Vistas

Resumo

Trabalhos anteriores mostraram que modelos de linguagem de grande porte (LLMs) podem traduzir idiomas não vistos ou de baixos recursos por meio de treinamento contínuo ou até mesmo codificando um livro de gramática em seu contexto. No entanto, ambos os métodos geralmente superajustam idiomas específicos, com transferência zero-shot limitada no momento do teste. Para traduzir idiomas de recursos extremamente baixos em escala, argumentamos que os LLMs devem adquirir a meta-habilidade de utilizar conhecimento linguístico no contexto, em vez de memorizar idiomas específicos. Neste artigo, propomos uma abordagem de aprendizado por reforço (RL) para tradução de idiomas não vistos, dado um rico contexto linguístico, usando uma métrica de tradução superficial (chrF) como recompensa. Empiricamente, apesar da recompensa leve, nossos modelos treinados com RL extraem e aplicam efetivamente informações linguísticas relevantes do contexto fornecido, resultando em melhores traduções em idiomas completamente não vistos do que o aprendizado no contexto ou o ajuste fino supervisionado. Nossas análises sugerem que o RL baseado em resultados pode se estender além de tarefas de raciocínio convencionais, como matemática e programação, servindo como uma receita para o aprendizado de idiomas a partir do contexto.

English

Prior work has shown that large language models (LLMs) can translate unseen or low-resource languages by undergoing continued training or even by encoding a grammar book in their context. However, both methods typically overfit specific languages, with limited zero-shot transfer at test time. To translate extremely low-resource languages at scale, we argue that LLMs must acquire the meta-skill of utilizing in-context linguistic knowledge rather than memorizing specific languages. In this paper, we propose a reinforcement learning (RL) approach to unseen language translation given rich linguistic context, using a surface-level translation metric (chrF) as the reward. Empirically, despite the lightweight reward, our RL-trained models effectively extract and apply relevant linguistic information from the provided context, leading to better translations on completely unseen languages than in-context learning or supervised fine-tuning. Our analyses suggest that outcome-based RL can extend beyond conventional reasoning tasks like math and coding to serve as a recipe for language learning from context.