Allineamento Autonomo Guidato da Principi di Modelli Linguistici da Zero con Supervisione Umana Minima
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
Autori: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
Abstract
I recenti agenti assistenti basati su IA, come ChatGPT, si affidano principalmente al fine-tuning supervisionato (SFT) con annotazioni umane e al reinforcement learning da feedback umano (RLHF) per allineare l'output dei grandi modelli linguistici (LLM) alle intenzioni umane, garantendo che siano utili, etici e affidabili. Tuttavia, questa dipendenza può limitare significativamente il vero potenziale degli agenti assistenti basati su IA a causa dell'elevato costo per ottenere supervisione umana e dei problemi correlati in termini di qualità, affidabilità, diversità, autoconsistenza e bias indesiderati. Per affrontare queste sfide, proponiamo un nuovo approccio chiamato SELF-ALIGN, che combina il ragionamento guidato da principi e la potenza generativa degli LLM per l'auto-allineamento degli agenti IA con una supervisione umana minima. Il nostro approccio comprende quattro fasi: prima, utilizziamo un LLM per generare prompt sintetici e un metodo guidato da argomenti per aumentare la diversità dei prompt; secondo, utilizziamo un piccolo insieme di principi scritti da esseri umani che i modelli IA devono seguire, e guidiamo l'LLM attraverso l'apprendimento in contesto da dimostrazioni (di applicazione dei principi) per produrre risposte utili, etiche e affidabili alle query degli utenti; terzo, eseguiamo il fine-tuning dell'LLM originale con le risposte auto-allineate di alta qualità, in modo che il modello risultante possa generare risposte desiderabili per ogni query direttamente senza il set di principi e le dimostrazioni; infine, offriamo un passaggio di raffinamento per affrontare i problemi di risposte eccessivamente brevi o indirette. Applicando SELF-ALIGN al modello linguistico di base LLaMA-65b, abbiamo sviluppato un assistente IA chiamato Dromedary. Con meno di 300 righe di annotazioni umane (inclusi < 200 prompt iniziali, 16 principi generici e 5 esempi per l'apprendimento in contesto), Dromedary supera significativamente le prestazioni di diversi sistemi IA all'avanguardia, inclusi Text-Davinci-003 e Alpaca, su dataset di benchmark con varie impostazioni.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.