Принципиально-ориентированное самонастраивание языковых моделей с нуля при минимальном участии человека
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
May 4, 2023
Авторы: Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
cs.AI
Аннотация
Современные агенты с ИИ-ассистентами, такие как ChatGPT, в основном полагаются на тонкую настройку с учителем (SFT) с использованием аннотаций, созданных человеком, и обучение с подкреплением на основе обратной связи от человека (RLHF) для согласования выходных данных крупных языковых моделей (LLM) с человеческими намерениями, обеспечивая их полезность, этичность и надежность. Однако такая зависимость может существенно ограничивать истинный потенциал ИИ-ассистентов из-за высокой стоимости получения человеческого надзора и связанных с этим проблем качества, надежности, разнообразия, самосогласованности и нежелательных предубеждений. Для решения этих задач мы предлагаем новый подход под названием SELF-ALIGN, который сочетает принципно-ориентированное рассуждение и генеративные возможности LLM для самонастройки ИИ-агентов с минимальным участием человека. Наш подход включает четыре этапа: во-первых, мы используем LLM для генерации синтетических запросов и метод, ориентированный на темы, для увеличения разнообразия запросов; во-вторых, мы используем небольшой набор принципов, написанных человеком, которым должны следовать модели ИИ, и направляем LLM через обучение в контексте на примерах (применения принципов) для создания полезных, этичных и надежных ответов на запросы пользователей; в-третьих, мы тонко настраиваем исходную LLM с использованием высококачественных самонастроенных ответов, чтобы итоговая модель могла генерировать желаемые ответы на каждый запрос напрямую, без необходимости в наборе принципов и примерах; и, наконец, мы предлагаем этап уточнения для решения проблем излишне кратких или косвенных ответов. Применив SELF-ALIGN к базовой языковой модели LLaMA-65b, мы разработали ИИ-ассистента под названием Dromedary. С использованием менее 300 строк человеческих аннотаций (включая < 200 начальных запросов, 16 общих принципов и 5 примеров для обучения в контексте), Dromedary значительно превосходит производительность нескольких современных ИИ-систем, включая Text-Davinci-003 и Alpaca, на эталонных наборах данных в различных условиях.
English
Recent AI-assistant agents, such as ChatGPT, predominantly rely on supervised
fine-tuning (SFT) with human annotations and reinforcement learning from human
feedback (RLHF) to align the output of large language models (LLMs) with human
intentions, ensuring they are helpful, ethical, and reliable. However, this
dependence can significantly constrain the true potential of AI-assistant
agents due to the high cost of obtaining human supervision and the related
issues on quality, reliability, diversity, self-consistency, and undesirable
biases. To address these challenges, we propose a novel approach called
SELF-ALIGN, which combines principle-driven reasoning and the generative power
of LLMs for the self-alignment of AI agents with minimal human supervision. Our
approach encompasses four stages: first, we use an LLM to generate synthetic
prompts, and a topic-guided method to augment the prompt diversity; second, we
use a small set of human-written principles for AI models to follow, and guide
the LLM through in-context learning from demonstrations (of principles
application) to produce helpful, ethical, and reliable responses to user's
queries; third, we fine-tune the original LLM with the high-quality
self-aligned responses so that the resulting model can generate desirable
responses for each query directly without the principle set and the
demonstrations anymore; and finally, we offer a refinement step to address the
issues of overly-brief or indirect responses. Applying SELF-ALIGN to the
LLaMA-65b base language model, we develop an AI assistant named Dromedary. With
fewer than 300 lines of human annotations (including < 200 seed prompts, 16
generic principles, and 5 exemplars for in-context learning). Dromedary
significantly surpasses the performance of several state-of-the-art AI systems,
including Text-Davinci-003 and Alpaca, on benchmark datasets with various
settings.