Обучение с подкреплением индуцирует контекстное обучение переводу неизвестного языка

Аннотация

Предыдущие работы показали, что большие языковые модели (БЯМ) могут переводить невидимые ранее или низкоресурсные языки путем продолженного обучения или даже кодирования грамматического справочника в их контексте. Однако оба метода, как правило, переобучаются на конкретных языках, демонстрируя ограниченный нулевой перенос во время тестирования. Для перевода чрезвычайно низкоресурсных языков в масштабе мы утверждаем, что БЯМ должны приобрести мета-навык использования внутриконтекстных лингвистических знаний, а не запоминать конкретные языки. В этой статье мы предлагаем подход на основе обучения с подкреплением (RL) для перевода невидимых языков при наличии богатого лингвистического контекста, используя поверхностную метрику перевода (chrF) в качестве вознаграждения. Эмпирически, несмотря на легковесное вознаграждение, наши модели, обученные с помощью RL, эффективно извлекают и применяют соответствующую лингвистическую информацию из предоставленного контекста, что приводит к лучшим переводам на совершенно невидимые языки по сравнению с обучением в контексте или контролируемой тонкой настройкой. Наш анализ показывает, что обучение с подкреплением на основе результатов может выходить за рамки обычных задач рассуждения, таких как математика и программирование, и служить методом изучения языка из контекста.

English

Prior work has shown that large language models (LLMs) can translate unseen or low-resource languages by undergoing continued training or even by encoding a grammar book in their context. However, both methods typically overfit specific languages, with limited zero-shot transfer at test time. To translate extremely low-resource languages at scale, we argue that LLMs must acquire the meta-skill of utilizing in-context linguistic knowledge rather than memorizing specific languages. In this paper, we propose a reinforcement learning (RL) approach to unseen language translation given rich linguistic context, using a surface-level translation metric (chrF) as the reward. Empirically, despite the lightweight reward, our RL-trained models effectively extract and apply relevant linguistic information from the provided context, leading to better translations on completely unseen languages than in-context learning or supervised fine-tuning. Our analyses suggest that outcome-based RL can extend beyond conventional reasoning tasks like math and coding to serve as a recipe for language learning from context.