Thinker: Обучение быстрому и медленному мышлению
Thinker: Learning to Think Fast and Slow
May 27, 2025
Авторы: Stephen Chung, Wenyu Du, Jie Fu
cs.AI
Аннотация
Недавние исследования показывают, что способности к рассуждению у крупных языковых моделей (LLM) могут быть улучшены за счет применения обучения с подкреплением (RL) к задачам вопросов и ответов (QA) в таких областях, как математика и программирование. При большой длине контекста LLM могут научиться выполнять поиск, что подтверждается наблюдаемым поведением самокоррекции в модели DeepSeek R1. Однако такое поисковое поведение часто оказывается неточным и неуверенным, что приводит к длинным, избыточным ответам и подчеркивает недостатки в интуиции и проверке. Вдохновленные теорией двойного процесса в психологии, мы предлагаем простое изменение задачи QA, включающее четыре этапа: Быстрое мышление, где LLM должна ответить в рамках строгого ограничения на количество токенов; Проверка, где модель оценивает свой первоначальный ответ; Медленное мышление, где она уточняет первоначальный ответ с большей обдуманностью; и Резюмирование, где она выделяет ключевые шаги из уточнения предыдущего этапа. Наша предложенная задача повышает среднюю точность с 24,9% до 27,9% для модели Qwen2.5-1.5B и с 45,9% до 49,8% для модели DeepSeek-R1-Qwen-1.5B. Примечательно, что для Qwen2.5-1.5B режим Быстрого мышления самостоятельно достигает точности 26,8%, используя менее 1000 токенов, что демонстрирует значительное повышение эффективности вывода. Эти результаты указывают на то, что интуиция и обдуманное рассуждение представляют собой различные, но дополняющие друг друга системы, которые выигрывают от целенаправленного обучения.
English
Recent studies show that the reasoning capabilities of Large Language Models
(LLMs) can be improved by applying Reinforcement Learning (RL) to
question-answering (QA) tasks in areas such as math and coding. With a long
context length, LLMs may learn to perform search, as indicated by the
self-correction behavior observed in DeepSeek R1. However, this search behavior
is often imprecise and lacks confidence, resulting in long, redundant responses
and highlighting deficiencies in intuition and verification. Inspired by the
Dual Process Theory in psychology, we introduce a simple modification to the QA
task that includes four stages: Fast Thinking, where the LLM must answer within
a strict token budget; Verification, where the model evaluates its initial
response; Slow Thinking, where it refines the initial response with more
deliberation; and Summarization, where it distills the refinement from the
previous stage into precise steps. Our proposed task improves average accuracy
from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for
DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone
achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial
inference efficiency gains. These findings suggest that intuition and
deliberative reasoning are distinct, complementary systems benefiting from
targeted training.Summary
AI-Generated Summary