Alineación Autónoma de Modelos de Lenguaje Basada en Principios desde Cero con Mínima Supervisión Humana
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
Autores: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
Resumen
Los recientes agentes de asistencia basados en IA, como ChatGPT, dependen principalmente del ajuste fino supervisado (SFT) con anotaciones humanas y del aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para alinear la salida de los modelos de lenguaje grandes (LLMs) con las intenciones humanas, asegurando que sean útiles, éticos y confiables. Sin embargo, esta dependencia puede limitar significativamente el verdadero potencial de los agentes de asistencia de IA debido al alto costo de obtener supervisión humana y a los problemas relacionados con la calidad, confiabilidad, diversidad, autoconsistencia y sesgos indeseables. Para abordar estos desafíos, proponemos un enfoque novedoso llamado SELF-ALIGN, que combina el razonamiento basado en principios y el poder generativo de los LLMs para la autoalineación de los agentes de IA con una supervisión humana mínima. Nuestro enfoque abarca cuatro etapas: primero, utilizamos un LLM para generar indicaciones sintéticas y un método guiado por temas para aumentar la diversidad de las indicaciones; segundo, empleamos un pequeño conjunto de principios escritos por humanos para que los modelos de IA los sigan, y guiamos al LLM mediante el aprendizaje en contexto a partir de demostraciones (de la aplicación de principios) para producir respuestas útiles, éticas y confiables a las consultas de los usuarios; tercero, ajustamos finamente el LLM original con las respuestas autoalineadas de alta calidad para que el modelo resultante pueda generar respuestas deseables para cada consulta directamente sin necesidad del conjunto de principios y las demostraciones; y finalmente, ofrecemos un paso de refinamiento para abordar los problemas de respuestas demasiado breves o indirectas. Aplicando SELF-ALIGN al modelo de lenguaje base LLaMA-65b, desarrollamos un asistente de IA llamado Dromedary. Con menos de 300 líneas de anotaciones humanas (incluyendo < 200 indicaciones iniciales, 16 principios genéricos y 5 ejemplos para el aprendizaje en contexto), Dromedary supera significativamente el rendimiento de varios sistemas de IA de vanguardia, incluyendo Text-Davinci-003 y Alpaca, en conjuntos de datos de referencia con diversas configuraciones.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.