Principe-gestuurde zelfafstemming van taalmodelen vanaf nul met minimaal menselijk toezicht

Samenvatting

Recente AI-assistenten, zoals ChatGPT, vertrouwen voornamelijk op supervised fine-tuning (SFT) met menselijke annotaties en reinforcement learning from human feedback (RLHF) om de output van grote taalmodellen (LLMs) af te stemmen op menselijke intenties, zodat ze behulpzaam, ethisch en betrouwbaar zijn. Deze afhankelijkheid kan echter het ware potentieel van AI-assistenten aanzienlijk beperken vanwege de hoge kosten van het verkrijgen van menselijk toezicht en de gerelateerde problemen op het gebied van kwaliteit, betrouwbaarheid, diversiteit, zelfconsistentie en ongewenste vooroordelen. Om deze uitdagingen aan te pakken, stellen we een nieuwe benadering voor genaamd SELF-ALIGN, die principe-gestuurd redeneren combineert met de generatieve kracht van LLMs voor de zelfafstemming van AI-agents met minimaal menselijk toezicht. Onze aanpak omvat vier fasen: eerst gebruiken we een LLM om synthetische prompts te genereren en een onderwerpgestuurde methode om de diversiteit van de prompts te vergroten; ten tweede gebruiken we een kleine set door mensen geschreven principes die AI-modellen moeten volgen, en begeleiden we de LLM via in-context learning van demonstraties (van principe-toepassing) om behulpzame, ethische en betrouwbare reacties op gebruikersvragen te produceren; ten derde fine-tunen we het oorspronkelijke LLM met de hoogwaardige zelfafgestemde reacties, zodat het resulterende model gewenste reacties voor elke vraag direct kan genereren zonder de principeset en de demonstraties; en tot slot bieden we een verfijningsstap om de problemen van te beknopte of indirecte reacties aan te pakken. Door SELF-ALIGN toe te passen op het LLaMA-65b basis-taalmodel, ontwikkelen we een AI-assistent genaamd Dromedary. Met minder dan 300 regels menselijke annotaties (inclusief < 200 startprompts, 16 algemene principes en 5 voorbeelden voor in-context learning) overtreft Dromedary de prestaties van verschillende state-of-the-art AI-systemen, waaronder Text-Davinci-003 en Alpaca, op benchmark-datasets met diverse instellingen.

English

Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised fine-tuning (SFT) with human annotations and reinforcement learning from human feedback (RLHF) to align the output of large language models (LLMs) with human intentions, ensuring they are helpful, ethical, and reliable. However, this dependence can significantly constrain the true potential of AI-assistant agents due to the high cost of obtaining human supervision and the related issues on quality, reliability, diversity, self-consistency, and undesirable biases. To address these challenges, we propose a novel approach called SELF-ALIGN, which combines principle-driven reasoning and the generative power of LLMs for the self-alignment of AI agents with minimal human supervision. Our approach encompasses four stages: first, we use an LLM to generate synthetic prompts, and a topic-guided method to augment the prompt diversity; second, we use a small set of human-written principles for AI models to follow, and guide the LLM through in-context learning from demonstrations (of principles application) to produce helpful, ethical, and reliable responses to user's queries; third, we fine-tune the original LLM with the high-quality self-aligned responses so that the resulting model can generate desirable responses for each query directly without the principle set and the demonstrations anymore; and finally, we offer a refinement step to address the issues of overly-brief or indirect responses. Applying SELF-ALIGN to the LLaMA-65b base language model, we develop an AI assistant named Dromedary. With fewer than 300 lines of human annotations (including < 200 seed prompts, 16 generic principles, and 5 exemplars for in-context learning). Dromedary significantly surpasses the performance of several state-of-the-art AI systems, including Text-Davinci-003 and Alpaca, on benchmark datasets with various settings.

Principe-gestuurde zelfafstemming van taalmodelen vanaf nul met minimaal menselijk toezicht

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

Samenvatting

Support