ChatPaper.aiChatPaper

Thinker: Lernen, schnell und langsam zu denken

Thinker: Learning to Think Fast and Slow

May 27, 2025
Autoren: Stephen Chung, Wenyu Du, Jie Fu
cs.AI

Zusammenfassung

Aktuelle Studien zeigen, dass die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung durch den Einsatz von Reinforcement Learning (RL) bei Frage-Antwort-Aufgaben (QA) in Bereichen wie Mathematik und Programmierung verbessert werden können. Bei einer langen Kontextlänge können LLMs lernen, Suchverhalten zu zeigen, wie das selbstkorrigierende Verhalten in DeepSeek R1 nahelegt. Dieses Suchverhalten ist jedoch oft unpräzise und unsicher, was zu langen, redundanten Antworten führt und Defizite in Intuition und Überprüfung offenbart. Inspiriert von der Dual-Process-Theorie in der Psychologie führen wir eine einfache Modifikation der QA-Aufgabe ein, die vier Phasen umfasst: Schnelles Denken, bei dem das LLM innerhalb eines strengen Token-Budgets antworten muss; Überprüfung, bei dem das Modell seine erste Antwort bewertet; Langsames Denken, bei dem es die erste Antwort mit mehr Bedacht verfeinert; und Zusammenfassung, bei der es die Verfeinerung aus der vorherigen Phase in präzise Schritte verdichtet. Unsere vorgeschlagene Aufgabe verbessert die durchschnittliche Genauigkeit von 24,9 % auf 27,9 % für Qwen2.5-1.5B und von 45,9 % auf 49,8 % für DeepSeek-R1-Qwen-1.5B. Bemerkenswert ist, dass der Modus Schnelles Denken allein für Qwen2.5-1.5B eine Genauigkeit von 26,8 % mit weniger als 1000 Tokens erreicht, was erhebliche Effizienzgewinne bei der Inferenz demonstriert. Diese Ergebnisse deuten darauf hin, dass Intuition und deliberatives Denken unterschiedliche, komplementäre Systeme sind, die von gezieltem Training profitieren.
English
Recent studies show that the reasoning capabilities of Large Language Models (LLMs) can be improved by applying Reinforcement Learning (RL) to question-answering (QA) tasks in areas such as math and coding. With a long context length, LLMs may learn to perform search, as indicated by the self-correction behavior observed in DeepSeek R1. However, this search behavior is often imprecise and lacks confidence, resulting in long, redundant responses and highlighting deficiencies in intuition and verification. Inspired by the Dual Process Theory in psychology, we introduce a simple modification to the QA task that includes four stages: Fast Thinking, where the LLM must answer within a strict token budget; Verification, where the model evaluates its initial response; Slow Thinking, where it refines the initial response with more deliberation; and Summarization, where it distills the refinement from the previous stage into precise steps. Our proposed task improves average accuracy from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial inference efficiency gains. These findings suggest that intuition and deliberative reasoning are distinct, complementary systems benefiting from targeted training.

Summary

AI-Generated Summary

PDF103May 28, 2025