ChatPaper.aiChatPaper

Prinzipiengeleitete Selbstausrichtung von Sprachmodellen von Grund auf mit minimaler menschlicher Aufsicht

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

May 4, 2023
Autoren: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI

Zusammenfassung

Aktuelle KI-Assistenzagenten wie ChatGPT stützen sich überwiegend auf überwachtes Fein-Tuning (SFT) mit menschlichen Annotationen und Reinforcement Learning aus menschlichem Feedback (RLHF), um die Ausgaben großer Sprachmodelle (LLMs) mit menschlichen Intentionen in Einklang zu bringen und sicherzustellen, dass sie hilfreich, ethisch und zuverlässig sind. Diese Abhängigkeit kann jedoch das wahre Potenzial von KI-Assistenzagenten erheblich einschränken, da die Beschaffung menschlicher Aufsicht hohe Kosten verursacht und Probleme in Bezug auf Qualität, Zuverlässigkeit, Vielfalt, Selbstkonsistenz und unerwünschte Verzerrungen mit sich bringt. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen Ansatz namens SELF-ALIGN vor, der prinzipiengeleitetes Denken und die generative Kraft von LLMs kombiniert, um die Selbstausrichtung von KI-Agenten mit minimaler menschlicher Aufsicht zu ermöglichen. Unser Ansatz umfasst vier Stufen: Zunächst verwenden wir ein LLM, um synthetische Prompts zu generieren, und eine themengeleitete Methode, um die Vielfalt der Prompts zu erhöhen. Zweitens nutzen wir eine kleine Menge von menschlich formulierten Prinzipien, die KI-Modelle befolgen sollen, und leiten das LLM durch In-Context-Lernen anhand von Demonstrationen (zur Anwendung der Prinzipien) an, um hilfreiche, ethische und zuverlässige Antworten auf Benutzeranfragen zu erzeugen. Drittens feintunen wir das ursprüngliche LLM mit den hochwertigen, selbstausgerichteten Antworten, sodass das resultierende Modell wünschenswerte Antworten für jede Anfrage direkt generieren kann, ohne die Prinzipien und Demonstrationen weiterhin zu benötigen. Schließlich bieten wir einen Verfeinerungsschritt an, um Probleme mit zu knappen oder indirekten Antworten zu beheben. Durch die Anwendung von SELF-ALIGN auf das Basissprachmodell LLaMA-65b entwickeln wir einen KI-Assistenten namens Dromedary. Mit weniger als 300 Zeilen menschlicher Annotationen (einschließlich < 200 Seed-Prompts, 16 allgemeiner Prinzipien und 5 Beispielen für In-Context-Lernen) übertrifft Dromedary die Leistung mehrerer modernster KI-Systeme, darunter Text-Davinci-003 und Alpaca, auf Benchmark-Datensätzen unter verschiedenen Einstellungen deutlich.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised fine-tuning (SFT) with human annotations and reinforcement learning from human feedback (RLHF) to align the output of large language models (LLMs) with human intentions, ensuring they are helpful, ethical, and reliable. However, this dependence can significantly constrain the true potential of AI-assistant agents due to the high cost of obtaining human supervision and the related issues on quality, reliability, diversity, self-consistency, and undesirable biases. To address these challenges, we propose a novel approach called SELF-ALIGN, which combines principle-driven reasoning and the generative power of LLMs for the self-alignment of AI agents with minimal human supervision. Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. Applying SELF-ALIGN to the LLaMA-65b base language model, we develop an AI assistant named Dromedary. With fewer than 300 lines of human annotations (including < 200 seed prompts, 16 generic principles, and 5 exemplars for in-context learning). Dromedary significantly surpasses the performance of several state-of-the-art AI systems, including Text-Davinci-003 and Alpaca, on benchmark datasets with various settings.
PDF15December 15, 2024