Penseur : Apprendre à penser vite et lentement
Thinker: Learning to Think Fast and Slow
May 27, 2025
Auteurs: Stephen Chung, Wenyu Du, Jie Fu
cs.AI
Résumé
Des études récentes montrent que les capacités de raisonnement des modèles de langage à grande échelle (LLMs) peuvent être améliorées en appliquant l'apprentissage par renforcement (RL) à des tâches de question-réponse (QA) dans des domaines tels que les mathématiques et la programmation. Avec une longueur de contexte étendue, les LLMs peuvent apprendre à effectuer des recherches, comme l'indique le comportement d'auto-correction observé dans DeepSeek R1. Cependant, ce comportement de recherche est souvent imprécis et manque de confiance, entraînant des réponses longues et redondantes et mettant en lumière des lacunes dans l'intuition et la vérification. Inspirés par la théorie des processus doubles en psychologie, nous introduisons une modification simple de la tâche de QA qui inclut quatre étapes : la Pensée Rapide, où le LLM doit répondre dans un budget strict de tokens ; la Vérification, où le modèle évalue sa réponse initiale ; la Pensée Lente, où il affine la réponse initiale avec plus de réflexion ; et la Synthèse, où il condense l'affinement de l'étape précédente en étapes précises. Notre tâche proposée améliore la précision moyenne de 24,9 % à 27,9 % pour Qwen2.5-1.5B, et de 45,9 % à 49,8 % pour DeepSeek-R1-Qwen-1.5B. Notamment, pour Qwen2.5-1.5B, le mode Pensée Rapide seul atteint une précision de 26,8 % en utilisant moins de 1000 tokens, démontrant des gains substantiels en efficacité d'inférence. Ces résultats suggèrent que l'intuition et le raisonnement délibératif sont des systèmes distincts et complémentaires qui bénéficient d'un entraînement ciblé.
English
Recent studies show that the reasoning capabilities of Large Language Models
(LLMs) can be improved by applying Reinforcement Learning (RL) to
question-answering (QA) tasks in areas such as math and coding. With a long
context length, LLMs may learn to perform search, as indicated by the
self-correction behavior observed in DeepSeek R1. However, this search behavior
is often imprecise and lacks confidence, resulting in long, redundant responses
and highlighting deficiencies in intuition and verification. Inspired by the
Dual Process Theory in psychology, we introduce a simple modification to the QA
task that includes four stages: Fast Thinking, where the LLM must answer within
a strict token budget; Verification, where the model evaluates its initial
response; Slow Thinking, where it refines the initial response with more
deliberation; and Summarization, where it distills the refinement from the
previous stage into precise steps. Our proposed task improves average accuracy
from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for
DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone
achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial
inference efficiency gains. These findings suggest that intuition and
deliberative reasoning are distinct, complementary systems benefiting from
targeted training.Summary
AI-Generated Summary