ChatPaper.aiChatPaper

Thinker: Leren om snel en langzaam te denken

Thinker: Learning to Think Fast and Slow

May 27, 2025
Auteurs: Stephen Chung, Wenyu Du, Jie Fu
cs.AI

Samenvatting

Recente studies tonen aan dat de redeneervaardigheden van Large Language Models (LLMs) kunnen worden verbeterd door Reinforcement Learning (RL) toe te passen op vraag-antwoordtaken (QA) in domeinen zoals wiskunde en programmeren. Met een lange contextlengte kunnen LLMs leren om zoekgedrag uit te voeren, zoals blijkt uit het zelfcorrectiegedrag dat is waargenomen in DeepSeek R1. Dit zoekgedrag is echter vaak onnauwkeurig en vertrouwt op weinig zekerheid, wat resulteert in lange, redundante antwoorden en tekortkomingen in intuïtie en verificatie blootlegt. Geïnspireerd door de Dual Process Theory in de psychologie introduceren we een eenvoudige aanpassing aan de QA-taak die vier fasen omvat: Snel Denken, waarbij het LLM binnen een strikt tokenbudget moet antwoorden; Verificatie, waarbij het model zijn initiële antwoord evalueert; Langzaam Denken, waarbij het het initiële antwoord met meer bedachtzaamheid verfijnt; en Samenvatting, waarbij het de verfijning uit de vorige fase destilleert tot precieze stappen. Onze voorgestelde taak verbetert de gemiddelde nauwkeurigheid van 24,9% naar 27,9% voor Qwen2.5-1.5B, en van 45,9% naar 49,8% voor DeepSeek-R1-Qwen-1.5B. Opmerkelijk is dat voor Qwen2.5-1.5B de Snel Denken-modus alleen al een nauwkeurigheid van 26,8% bereikt met minder dan 1000 tokens, wat aanzienlijke efficiëntiewinsten in inferentie aantoont. Deze bevindingen suggereren dat intuïtie en beredeneerd denken afzonderlijke, complementaire systemen zijn die baat hebben bij gerichte training.
English
Recent studies show that the reasoning capabilities of Large Language Models (LLMs) can be improved by applying Reinforcement Learning (RL) to question-answering (QA) tasks in areas such as math and coding. With a long context length, LLMs may learn to perform search, as indicated by the self-correction behavior observed in DeepSeek R1. However, this search behavior is often imprecise and lacks confidence, resulting in long, redundant responses and highlighting deficiencies in intuition and verification. Inspired by the Dual Process Theory in psychology, we introduce a simple modification to the QA task that includes four stages: Fast Thinking, where the LLM must answer within a strict token budget; Verification, where the model evaluates its initial response; Slow Thinking, where it refines the initial response with more deliberation; and Summarization, where it distills the refinement from the previous stage into precise steps. Our proposed task improves average accuracy from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial inference efficiency gains. These findings suggest that intuition and deliberative reasoning are distinct, complementary systems benefiting from targeted training.
PDF113May 28, 2025