ChatPaper.aiChatPaper

Reutilize Suas Recompensas: Transferência de Modelo de Recompensa para Alinhamento Cross-Lingual Zero-Shot

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

April 18, 2024
Autores: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami
cs.AI

Resumo

Alinhar modelos de linguagem (LMs) com base em dados de preferência anotados por humanos é uma etapa crucial para obter sistemas práticos e eficientes baseados em LMs. No entanto, dados de preferência humana multilingues são difíceis de obter em escala, tornando desafiador estender esse framework para diversos idiomas. Neste trabalho, avaliamos uma abordagem simples para o alinhamento cruzado de idiomas em zero-shot, onde um modelo de recompensa é treinado com dados de preferência em um idioma de origem e aplicado diretamente a outros idiomas de destino. Em tarefas de sumarização e geração de diálogo aberto, mostramos que esse método é consistentemente bem-sucedido em configurações de avaliação abrangentes, incluindo avaliação humana: modelos alinhados cruzadamente são preferidos por humanos em relação a modelos não alinhados em mais de 70% das instâncias de avaliação. Além disso, descobrimos que um modelo de recompensa em um idioma diferente às vezes produz modelos mais alinhados do que um modelo de recompensa no mesmo idioma. Também identificamos melhores práticas quando não há dados específicos de idioma disponíveis, nem mesmo para ajuste fino supervisionado, outro componente no processo de alinhamento.
English
Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.
PDF151December 15, 2024