최소한의 인간 감독으로 원칙 기반 언어 모델의 스크래치부터 자기 정렬
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
저자: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
초록
최근 ChatGPT와 같은 AI 어시스턴트 에이전트는 대규모 언어 모델(LLM)의 출력을 인간의 의도와 일치시키고, 도움이 되고 윤리적이며 신뢰할 수 있도록 보장하기 위해 주로 인간 주석을 통한 지도 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)에 의존하고 있습니다. 그러나 이러한 의존성은 인간 감독을 얻는 데 드는 높은 비용과 품질, 신뢰성, 다양성, 자기 일관성 및 바람직하지 않은 편향과 관련된 문제로 인해 AI 어시스턴트 에이전트의 진정한 잠재력을 크게 제한할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 최소한의 인간 감독으로 AI 에이전트의 자기 정렬을 위해 원칙 기반 추론과 LLM의 생성 능력을 결합한 SELF-ALIGN이라는 새로운 접근 방식을 제안합니다. 우리의 접근 방식은 네 단계로 구성됩니다: 첫째, LLM을 사용하여 합성 프롬프트를 생성하고, 주제 기반 방법을 통해 프롬프트 다양성을 확장합니다. 둘째, AI 모델이 따를 소규모의 인간 작성 원칙을 사용하고, 원칙 적용의 데모를 통해 컨텍스트 내 학습을 통해 LLM을 안내하여 사용자의 질문에 도움이 되고 윤리적이며 신뢰할 수 있는 응답을 생성합니다. 셋째, 원래의 LLM을 고품질의 자기 정렬 응답으로 미세 조정하여 결과 모델이 원칙 집합과 데모 없이도 각 질문에 대해 바람직한 응답을 직접 생성할 수 있도록 합니다. 마지막으로, 지나치게 간략하거나 간접적인 응답의 문제를 해결하기 위한 정제 단계를 제공합니다. SELF-ALIGN을 LLaMA-65b 기본 언어 모델에 적용하여 Dromedary라는 AI 어시스턴트를 개발했습니다. 300줄 미만의 인간 주석(200개 미만의 시드 프롬프트, 16개의 일반 원칙, 컨텍스트 내 학습을 위한 5개의 예제 포함)을 사용하여 Dromedary는 다양한 설정의 벤치마크 데이터셋에서 Text-Davinci-003 및 Alpaca를 포함한 여러 최첨단 AI 시스템의 성능을 크게 능가합니다.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.