Principe-gestuurde zelfafstemming van taalmodelen vanaf nul met minimaal menselijk toezicht
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
Auteurs: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
Samenvatting
Recente AI-assistenten, zoals ChatGPT, vertrouwen voornamelijk op supervised fine-tuning (SFT) met menselijke annotaties en reinforcement learning from human feedback (RLHF) om de output van grote taalmodellen (LLMs) af te stemmen op menselijke intenties, zodat ze behulpzaam, ethisch en betrouwbaar zijn. Deze afhankelijkheid kan echter het ware potentieel van AI-assistenten aanzienlijk beperken vanwege de hoge kosten van het verkrijgen van menselijk toezicht en de gerelateerde problemen op het gebied van kwaliteit, betrouwbaarheid, diversiteit, zelfconsistentie en ongewenste vooroordelen. Om deze uitdagingen aan te pakken, stellen we een nieuwe benadering voor genaamd SELF-ALIGN, die principe-gestuurd redeneren combineert met de generatieve kracht van LLMs voor de zelfafstemming van AI-agents met minimaal menselijk toezicht. Onze aanpak omvat vier fasen: eerst gebruiken we een LLM om synthetische prompts te genereren en een onderwerpgestuurde methode om de diversiteit van de prompts te vergroten; ten tweede gebruiken we een kleine set door mensen geschreven principes die AI-modellen moeten volgen, en begeleiden we de LLM via in-context learning van demonstraties (van principe-toepassing) om behulpzame, ethische en betrouwbare reacties op gebruikersvragen te produceren; ten derde fine-tunen we het oorspronkelijke LLM met de hoogwaardige zelfafgestemde reacties, zodat het resulterende model gewenste reacties voor elke vraag direct kan genereren zonder de principeset en de demonstraties; en tot slot bieden we een verfijningsstap om de problemen van te beknopte of indirecte reacties aan te pakken. Door SELF-ALIGN toe te passen op het LLaMA-65b basis-taalmodel, ontwikkelen we een AI-assistent genaamd Dromedary. Met minder dan 300 regels menselijke annotaties (inclusief < 200 startprompts, 16 algemene principes en 5 voorbeelden voor in-context learning) overtreft Dromedary de prestaties van verschillende state-of-the-art AI-systemen, waaronder Text-Davinci-003 en Alpaca, op benchmark-datasets met diverse instellingen.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.