Alignement Autonome Guidé par des Principes de Modèles de Langage à partir de Zéro avec un Minimum de Supervision Humaine
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
Auteurs: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
Résumé
Les agents d'assistance IA récents, tels que ChatGPT, reposent principalement sur un ajustement supervisé (SFT) avec des annotations humaines et un apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les sorties des grands modèles de langage (LLMs) avec les intentions humaines, garantissant ainsi qu'ils soient utiles, éthiques et fiables. Cependant, cette dépendance peut considérablement limiter le véritable potentiel des agents d'assistance IA en raison du coût élevé de l'obtention de la supervision humaine et des problèmes connexes liés à la qualité, la fiabilité, la diversité, la cohérence interne et les biais indésirables. Pour relever ces défis, nous proposons une nouvelle approche appelée SELF-ALIGN, qui combine un raisonnement fondé sur des principes et la puissance générative des LLMs pour l'auto-alignement des agents IA avec un minimum de supervision humaine. Notre approche comprend quatre étapes : premièrement, nous utilisons un LLM pour générer des invites synthétiques, et une méthode guidée par des thèmes pour augmenter la diversité des invites ; deuxièmement, nous utilisons un petit ensemble de principes rédigés par des humains pour que les modèles IA les suivent, et guidons le LLM à travers un apprentissage en contexte à partir de démonstrations (d'application des principes) pour produire des réponses utiles, éthiques et fiables aux requêtes des utilisateurs ; troisièmement, nous ajustons finement le LLM original avec les réponses auto-alignées de haute qualité afin que le modèle résultant puisse générer directement des réponses souhaitables pour chaque requête sans avoir besoin de l'ensemble de principes et des démonstrations ; et enfin, nous proposons une étape de raffinement pour résoudre les problèmes de réponses trop brèves ou indirectes. En appliquant SELF-ALIGN au modèle de langage de base LLaMA-65b, nous développons un assistant IA nommé Dromedary. Avec moins de 300 lignes d'annotations humaines (incluant < 200 invites initiales, 16 principes génériques et 5 exemples pour l'apprentissage en contexte), Dromedary surpasse significativement les performances de plusieurs systèmes IA de pointe, notamment Text-Davinci-003 et Alpaca, sur des ensembles de données de référence avec divers paramètres.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.