Alinhamento Autônomo Orientado por Princípios de Modelos de Linguagem a Partir do Zero com Supervisão Humana Mínima
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
Autores: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
Resumo
Os recentes agentes assistentes de IA, como o ChatGPT, dependem predominantemente de ajuste fino supervisionado (SFT) com anotações humanas e aprendizado por reforço a partir de feedback humano (RLHF) para alinhar a saída de grandes modelos de linguagem (LLMs) com as intenções humanas, garantindo que sejam úteis, éticos e confiáveis. No entanto, essa dependência pode restringir significativamente o verdadeiro potencial dos agentes assistentes de IA devido ao alto custo de obtenção de supervisão humana e aos problemas relacionados à qualidade, confiabilidade, diversidade, autoconsistência e vieses indesejados. Para enfrentar esses desafios, propomos uma nova abordagem chamada SELF-ALIGN, que combina raciocínio baseado em princípios e o poder generativo dos LLMs para o autoalinhamento de agentes de IA com supervisão humana mínima. Nossa abordagem abrange quatro estágios: primeiro, usamos um LLM para gerar prompts sintéticos e um método guiado por tópicos para aumentar a diversidade dos prompts; segundo, usamos um pequeno conjunto de princípios escritos por humanos para os modelos de IA seguirem e guiamos o LLM por meio de aprendizado em contexto a partir de demonstrações (de aplicação de princípios) para produzir respostas úteis, éticas e confiáveis às consultas dos usuários; terceiro, ajustamos finamente o LLM original com as respostas autoalinhadas de alta qualidade, de modo que o modelo resultante possa gerar respostas desejáveis para cada consulta diretamente, sem a necessidade do conjunto de princípios e das demonstrações; e, finalmente, oferecemos uma etapa de refinamento para abordar os problemas de respostas excessivamente breves ou indiretas. Aplicando o SELF-ALIGN ao modelo de linguagem base LLaMA-65b, desenvolvemos um assistente de IA chamado Dromedary. Com menos de 300 linhas de anotações humanas (incluindo < 200 prompts iniciais, 16 princípios genéricos e 5 exemplares para aprendizado em contexto), o Dromedary supera significativamente o desempenho de vários sistemas de IA state-of-the-art, incluindo Text-Davinci-003 e Alpaca, em conjuntos de dados de referência com várias configurações.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.