最小限の人的監視によるゼロからの言語モデルの原則駆動型自己アラインメント
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
著者: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
要旨
最近のAIアシスタントエージェント、例えばChatGPTは、主に人間によるアノテーションを用いた教師ありファインチューニング(SFT)と、人間のフィードバックからの強化学習(RLHF)に依存しており、大規模言語モデル(LLM)の出力を人間の意図に合わせることで、有用性、倫理性、信頼性を確保しています。しかし、この依存性は、人間の監督を取得するための高コストや、品質、信頼性、多様性、自己一貫性、望ましくないバイアスに関する問題により、AIアシスタントエージェントの真の潜在能力を大きく制約する可能性があります。これらの課題に対処するため、我々はSELF-ALIGNと呼ばれる新しいアプローチを提案します。これは、原則駆動型の推論とLLMの生成能力を組み合わせ、最小限の人間の監督でAIエージェントの自己整合を実現するものです。我々のアプローチは4つの段階で構成されます。まず、LLMを使用して合成プロンプトを生成し、トピックガイド法を用いてプロンプトの多様性を拡張します。次に、AIモデルが従うべき少数の人間が書いた原則を使用し、原則適用のデモンストレーションを通じてコンテキスト内学習をガイドし、ユーザーのクエリに対して有用で倫理的かつ信頼性の高い応答を生成します。第三に、自己整合された高品質な応答を用いて元のLLMをファインチューニングし、原則セットやデモンストレーションなしで各クエリに対して望ましい応答を直接生成できるモデルを作成します。最後に、過度に簡潔または間接的な応答の問題に対処するための改良ステップを提供します。SELF-ALIGNをLLaMA-65bベースの言語モデルに適用し、DromedaryというAIアシスタントを開発しました。200未満のシードプロンプト、16の一般的な原則、およびコンテキスト学習のための5つの例を含む、300行未満の人間によるアノテーションを使用して、Dromedaryは、Text-Davinci-003やAlpacaを含むいくつかの最先端AIシステムの性能を、さまざまな設定のベンチマークデータセットで大幅に上回りました。
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.