ChatPaper.aiChatPaper

Используйте свои награды повторно: передача модели вознаграждения для кросс-языкового выравнивания с нулевым шагом.

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

April 18, 2024
Авторы: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami
cs.AI

Аннотация

Выравнивание языковых моделей (LMs) на основе данных о предпочтениях, аннотированных людьми, является важным этапом в получении практичных и эффективных систем на основе LM. Однако многоязычные данные о предпочтениях людей сложно получить в масштабе, что затрудняет расширение этой структуры на разнообразные языки. В данной работе мы оцениваем простой подход к кросс-языковому выравниванию "нулевого сэмпла", где модель вознаграждения обучается на данных о предпочтениях на одном исходном языке и применяется непосредственно к другим целевым языкам. На задачах суммаризации и генерации открытого диалога мы показываем, что этот метод последовательно успешен в рамках всесторонних настроек оценки, включая оценку человеком: кросс-языковые выровненные модели предпочтительны людьми по сравнению с невыровненными моделями вплоть до >70% случаев оценки. Мы также обнаруживаем, что модель вознаграждения на другом языке иногда обеспечивает лучшее выравнивание моделей, чем модель вознаграждения на том же языке. Мы также выявляем лучшие практики, когда нет языковых данных даже для надзорного донастройки, еще одного компонента в выравнивании.
English
Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.

Summary

AI-Generated Summary

PDF151December 15, 2024