ChatPaper.aiChatPaper

Hergebruik Je Beloningen: Overdracht van Beloningsmodellen voor Nul-Shot Cross-Linguale Afstemming

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

April 18, 2024
Auteurs: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami
cs.AI

Samenvatting

Het afstemmen van taalmodelen (LMs) op basis van door mensen geannoteerde voorkeursdata is een cruciale stap om praktische en presterende LM-gebaseerde systemen te verkrijgen. Echter, meertalige voorkeursdata van mensen zijn moeilijk op grote schaal te verkrijgen, wat het uitbreiden van dit raamwerk naar diverse talen uitdagend maakt. In dit werk evalueren we een eenvoudige aanpak voor zero-shot cross-linguale afstemming, waarbij een beloningsmodel wordt getraind op voorkeursdata in één brontaal en direct wordt toegepast op andere doeltalen. Bij samenvatting en open dialooggeneratie laten we zien dat deze methode consistent succesvol is onder uitgebreide evaluatieomstandigheden, inclusief menselijke evaluatie: cross-lingueel afgestemde modellen worden door mensen verkozen boven niet-afgestemde modellen in meer dan >70% van de evaluatiegevallen. We ontdekken bovendien dat een beloningsmodel in een andere taal soms beter afgestemde modellen oplevert dan een beloningsmodel in dezelfde taal. We identificeren ook best practices wanneer er geen taalspecifieke data beschikbaar is voor zelfs supervised finetuning, een ander onderdeel in afstemming.
English
Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.
PDF151December 15, 2024