ChatPaper.aiChatPaper

RLCD: Aprendizaje por Refuerzo mediante Distilación de Contraste para la Alineación de Modelos de Lenguaje

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment

July 24, 2023
Autores: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
cs.AI

Resumen

Proponemos Aprendizaje por Refuerzo a partir de Distilación de Contraste (RLCD, por sus siglas en inglés), un método para alinear modelos de lenguaje con el fin de seguir principios de lenguaje natural sin utilizar retroalimentación humana. RLCD entrena un modelo de preferencias utilizando pares de preferencias simulados que contienen tanto un ejemplo de alta calidad como uno de baja calidad, generados mediante indicaciones positivas y negativas contrastantes. Este modelo de preferencias se utiliza luego para mejorar un modelo de lenguaje base no alineado mediante aprendizaje por refuerzo. Empíricamente, RLCD supera a los baselines de RLAIF (Bai et al., 2022b) y distilación de contexto (Huang et al., 2022) en tres tareas de alineación diversas: inocuidad, utilidad y generación de esquemas de historias, tanto en escalas de modelos de 7B como de 30B para la simulación de datos de preferencias.
English
We propose Reinforcement Learning from Contrast Distillation (RLCD), a method for aligning language models to follow natural language principles without using human feedback. RLCD trains a preference model using simulated preference pairs that contain both a high-quality and low-quality example, generated using contrasting positive and negative prompts. The preference model is then used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks--harmlessness, helpfulness, and story outline generation--and on both 7B and 30B model scales for preference data simulation.
PDF100December 15, 2024