ChatPaper.aiChatPaper

Reutiliza Tus Recompensas: Transferencia del Modelo de Recompensas para la Alineación Translingüística en Cero-Shot

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

April 18, 2024
Autores: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami
cs.AI

Resumen

Alinear los modelos de lenguaje (LM) basándose en datos de preferencias anotados por humanos es un paso crucial para obtener sistemas prácticos y eficientes basados en LM. Sin embargo, los datos de preferencias humanas multilingües son difíciles de obtener a gran escala, lo que hace que sea un desafío extender este marco a diversos idiomas. En este trabajo, evaluamos un enfoque simple para la alineación multilingüe de tipo zero-shot, donde un modelo de recompensa se entrena con datos de preferencias en un idioma fuente y se aplica directamente a otros idiomas objetivo. En tareas de resumen y generación de diálogos abiertos, demostramos que este método tiene un éxito consistente bajo configuraciones de evaluación exhaustivas, incluyendo evaluación humana: los modelos alineados multilingüemente son preferidos por los humanos sobre los modelos no alineados en más del 70% de las instancias de evaluación. Además, encontramos que un modelo de recompensa en un idioma diferente a veces produce modelos mejor alineados que un modelo de recompensa en el mismo idioma. También identificamos mejores prácticas cuando no hay datos específicos del idioma incluso para el ajuste fino supervisado, otro componente en la alineación.
English
Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.

Summary

AI-Generated Summary

PDF151December 15, 2024