Riutilizza le Tue Ricompense: Trasferimento del Modello di Ricompensa per l'Allineamento Cross-Linguistico Zero-Shot

Abstract

Allineare i modelli linguistici (LM) basandosi su dati di preferenza annotati da esseri umani rappresenta un passaggio cruciale per ottenere sistemi basati su LM pratici e performanti. Tuttavia, i dati di preferenza umana multilingue sono difficili da ottenere su larga scala, rendendo complesso estendere questo framework a lingue diverse. In questo lavoro, valutiamo un approccio semplice per l'allineamento cross-linguale zero-shot, in cui un modello di ricompensa viene addestrato su dati di preferenza in una lingua sorgente e applicato direttamente ad altre lingue target. Nel contesto della generazione di riassunti e dialoghi aperti, dimostriamo che questo metodo risulta costantemente efficace in impostazioni di valutazione complete, inclusa la valutazione umana: i modelli allineati cross-lingualmente sono preferiti dagli esseri umani rispetto ai modelli non allineati in oltre il 70% dei casi di valutazione. Inoltre, scopriamo che un modello di ricompensa in una lingua diversa a volte produce modelli allineati migliori rispetto a un modello di ricompensa nella stessa lingua. Identifichiamo anche le migliori pratiche quando non sono disponibili dati specifici per una lingua, nemmeno per il fine-tuning supervisionato, un altro componente dell'allineamento.

English

Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.

Riutilizza le Tue Ricompense: Trasferimento del Modello di Ricompensa per l'Allineamento Cross-Linguistico Zero-Shot

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Abstract

Support