ChatPaper.aiChatPaper

Nutzen Sie Ihre Belohnungen erneut: Übertragung von Belohnungsmodellen für die sprachübergreifende Ausrichtung ohne vorheriges Training

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

April 18, 2024
Autoren: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami
cs.AI

Zusammenfassung

Die Ausrichtung von Sprachmodellen (LMs) basierend auf menschlich annotierten Präferenzdaten ist ein entscheidender Schritt zur Erlangung praktischer und leistungsstarker LM-basierter Systeme. Multilinguale menschliche Präferenzdaten sind jedoch schwer in großem Umfang zu erhalten, was es herausfordernd macht, dieses Framework auf verschiedene Sprachen auszudehnen. In dieser Arbeit evaluieren wir einen einfachen Ansatz für die Nullschuss-übergreifende sprachliche Ausrichtung, bei dem ein Belohnungsmodell auf Präferenzdaten in einer Ausgangssprache trainiert wird und direkt auf andere Zielsprachen angewendet wird. Bei der Zusammenfassung und der offenen Dialoggenerierung zeigen wir, dass diese Methode unter umfassenden Evaluierungseinstellungen konsistent erfolgreich ist, einschließlich menschlicher Bewertung: sprachlich übergreifend ausgerichtete Modelle werden von Menschen in bis zu >70% der Evaluierungsinstanzen gegenüber nicht ausgerichteten Modellen bevorzugt. Darüber hinaus stellen wir fest, dass ein Belohnungsmodell in einer anderen Sprache manchmal besser ausgerichtete Modelle ergibt als ein Belohnungsmodell in derselben Sprache. Wir identifizieren auch bewährte Verfahren, wenn keine sprachspezifischen Daten für selbst überwachtes Feintuning vorhanden sind, ein weiterer Bestandteil der Ausrichtung.
English
Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.

Summary

AI-Generated Summary

PDF151December 15, 2024