Riutilizza le Tue Ricompense: Trasferimento del Modello di Ricompensa per l'Allineamento Cross-Linguistico Zero-Shot
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment
April 18, 2024
Autori: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami
cs.AI
Abstract
Allineare i modelli linguistici (LM) basandosi su dati di preferenza annotati da esseri umani rappresenta un passaggio cruciale per ottenere sistemi basati su LM pratici e performanti. Tuttavia, i dati di preferenza umana multilingue sono difficili da ottenere su larga scala, rendendo complesso estendere questo framework a lingue diverse. In questo lavoro, valutiamo un approccio semplice per l'allineamento cross-linguale zero-shot, in cui un modello di ricompensa viene addestrato su dati di preferenza in una lingua sorgente e applicato direttamente ad altre lingue target. Nel contesto della generazione di riassunti e dialoghi aperti, dimostriamo che questo metodo risulta costantemente efficace in impostazioni di valutazione complete, inclusa la valutazione umana: i modelli allineati cross-lingualmente sono preferiti dagli esseri umani rispetto ai modelli non allineati in oltre il 70% dei casi di valutazione. Inoltre, scopriamo che un modello di ricompensa in una lingua diversa a volte produce modelli allineati migliori rispetto a un modello di ricompensa nella stessa lingua. Identifichiamo anche le migliori pratiche quando non sono disponibili dati specifici per una lingua, nemmeno per il fine-tuning supervisionato, un altro componente dell'allineamento.
English
Aligning language models (LMs) based on human-annotated preference data is a
crucial step in obtaining practical and performant LM-based systems. However,
multilingual human preference data are difficult to obtain at scale, making it
challenging to extend this framework to diverse languages. In this work, we
evaluate a simple approach for zero-shot cross-lingual alignment, where a
reward model is trained on preference data in one source language and directly
applied to other target languages. On summarization and open-ended dialog
generation, we show that this method is consistently successful under
comprehensive evaluation settings, including human evaluation: cross-lingually
aligned models are preferred by humans over unaligned models on up to >70% of
evaluation instances. We moreover find that a different-language reward model
sometimes yields better aligned models than a same-language reward model. We
also identify best practices when there is no language-specific data for even
supervised finetuning, another component in alignment.