ChatPaper.aiChatPaper

Alignement Autonome Guidé par des Principes de Modèles de Langage à partir de Zéro avec un Minimum de Supervision Humaine

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

May 4, 2023
Auteurs: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI

Résumé

Les agents d'assistance IA récents, tels que ChatGPT, reposent principalement sur un ajustement supervisé (SFT) avec des annotations humaines et un apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les sorties des grands modèles de langage (LLMs) avec les intentions humaines, garantissant ainsi qu'ils soient utiles, éthiques et fiables. Cependant, cette dépendance peut considérablement limiter le véritable potentiel des agents d'assistance IA en raison du coût élevé de l'obtention de la supervision humaine et des problèmes connexes liés à la qualité, la fiabilité, la diversité, la cohérence interne et les biais indésirables. Pour relever ces défis, nous proposons une nouvelle approche appelée SELF-ALIGN, qui combine un raisonnement fondé sur des principes et la puissance générative des LLMs pour l'auto-alignement des agents IA avec un minimum de supervision humaine. Notre approche comprend quatre étapes : premièrement, nous utilisons un LLM pour générer des invites synthétiques, et une méthode guidée par des thèmes pour augmenter la diversité des invites ; deuxièmement, nous utilisons un petit ensemble de principes rédigés par des humains pour que les modèles IA les suivent, et guidons le LLM à travers un apprentissage en contexte à partir de démonstrations (d'application des principes) pour produire des réponses utiles, éthiques et fiables aux requêtes des utilisateurs ; troisièmement, nous ajustons finement le LLM original avec les réponses auto-alignées de haute qualité afin que le modèle résultant puisse générer directement des réponses souhaitables pour chaque requête sans avoir besoin de l'ensemble de principes et des démonstrations ; et enfin, nous proposons une étape de raffinement pour résoudre les problèmes de réponses trop brèves ou indirectes. En appliquant SELF-ALIGN au modèle de langage de base LLaMA-65b, nous développons un assistant IA nommé Dromedary. Avec moins de 300 lignes d'annotations humaines (incluant < 200 invites initiales, 16 principes génériques et 5 exemples pour l'apprentissage en contexte), Dromedary surpasse significativement les performances de plusieurs systèmes IA de pointe, notamment Text-Davinci-003 et Alpaca, sur des ensembles de données de référence avec divers paramètres.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised fine-tuning (SFT) with human annotations and reinforcement learning from human feedback (RLHF) to align the output of large language models (LLMs) with human intentions, ensuring they are helpful, ethical, and reliable. However, this dependence can significantly constrain the true potential of AI-assistant agents due to the high cost of obtaining human supervision and the related issues on quality, reliability, diversity, self-consistency, and undesirable biases. To address these challenges, we propose a novel approach called SELF-ALIGN, which combines principle-driven reasoning and the generative power of LLMs for the self-alignment of AI agents with minimal human supervision. Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. Applying SELF-ALIGN to the LLaMA-65b base language model, we develop an AI assistant named Dromedary. With fewer than 300 lines of human annotations (including < 200 seed prompts, 16 generic principles, and 5 exemplars for in-context learning). Dromedary significantly surpasses the performance of several state-of-the-art AI systems, including Text-Davinci-003 and Alpaca, on benchmark datasets with various settings.
PDF15December 15, 2024