Мыслящие LLM-модели: Общее следование инструкциям с генерацией мыслей
Thinking LLMs: General Instruction Following with Thought Generation
October 14, 2024
Авторы: Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI
Аннотация
LLM-модели обычно обучаются отвечать на вопросы пользователей или следовать инструкциям, аналогично тому, как это делают человеческие эксперты. Однако в стандартной модели выравнивания им не хватает базовой способности к явному мышлению перед ответом. Мышление важно для сложных вопросов, требующих рассуждений и планирования, — но может быть применено к любой задаче. Мы предлагаем метод обучения для оснащения существующих LLM-моделей такими способностями мышления для общего следования инструкциям без использования дополнительных данных от людей. Мы достигаем этого с помощью итеративной процедуры поиска и оптимизации, исследующей пространство возможных мыслительных генераций, позволяя модели научиться думать без прямого надзора. Для каждой инструкции кандидаты мыслей оцениваются с использованием модели-судьи для оценки только их ответов, а затем оптимизируются с помощью оптимизации предпочтений. Мы показываем, что эта процедура приводит к превосходной производительности на AlpacaEval и Arena-Hard, а также демонстрирует преимущества мышления в не-рассуждающих категориях, таких как маркетинг, здравоохранение и общие знания, помимо более традиционных задач рассуждения и решения проблем.
English
LLMs are typically trained to answer user questions or follow instructions
similarly to how human experts respond. However, in the standard alignment
framework they lack the basic ability of explicit thinking before answering.
Thinking is important for complex questions that require reasoning and planning
-- but can be applied to any task. We propose a training method for equipping
existing LLMs with such thinking abilities for general instruction following
without use of additional human data. We achieve this by an iterative search
and optimization procedure that explores the space of possible thought
generations, allowing the model to learn how to think without direct
supervision. For each instruction, the thought candidates are scored using a
judge model to evaluate their responses only, and then optimized via preference
optimization. We show that this procedure leads to superior performance on
AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning
categories such as marketing, health and general knowledge, in addition to more
traditional reasoning & problem-solving tasks.Summary
AI-Generated Summary