Réutilisez vos récompenses : Transfert de modèle de récompense pour l'alignement multilingue en zéro-shot
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment
April 18, 2024
Auteurs: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami
cs.AI
Résumé
L'alignement des modèles de langage (LM) sur la base de données de préférences annotées par des humains constitue une étape cruciale pour obtenir des systèmes basés sur LM pratiques et performants. Cependant, les données de préférences humaines multilingues sont difficiles à obtenir à grande échelle, ce qui rend complexe l'extension de ce cadre à des langues diverses. Dans ce travail, nous évaluons une approche simple pour l'alignement cross-lingue en mode zero-shot, où un modèle de récompense est entraîné sur des données de préférences dans une langue source et appliqué directement à d'autres langues cibles. Sur des tâches de résumé et de génération de dialogues ouverts, nous montrons que cette méthode obtient systématiquement des résultats positifs dans des contextes d'évaluation complets, incluant l'évaluation humaine : les modèles alignés cross-lingue sont préférés par les humains par rapport aux modèles non alignés dans plus de 70 % des cas d'évaluation. Nous constatons également qu'un modèle de récompense dans une langue différente produit parfois des modèles mieux alignés qu'un modèle de récompense dans la même langue. Nous identifions également les meilleures pratiques lorsqu'il n'existe aucune donnée spécifique à une langue, même pour le fine-tuning supervisé, un autre composant de l'alignement.
English
Aligning language models (LMs) based on human-annotated preference data is a
crucial step in obtaining practical and performant LM-based systems. However,
multilingual human preference data are difficult to obtain at scale, making it
challenging to extend this framework to diverse languages. In this work, we
evaluate a simple approach for zero-shot cross-lingual alignment, where a
reward model is trained on preference data in one source language and directly
applied to other target languages. On summarization and open-ended dialog
generation, we show that this method is consistently successful under
comprehensive evaluation settings, including human evaluation: cross-lingually
aligned models are preferred by humans over unaligned models on up to >70% of
evaluation instances. We moreover find that a different-language reward model
sometimes yields better aligned models than a same-language reward model. We
also identify best practices when there is no language-specific data for even
supervised finetuning, another component in alignment.Summary
AI-Generated Summary