ChatPaper.aiChatPaper

Penseur : Apprendre à penser vite et lentement

Thinker: Learning to Think Fast and Slow

May 27, 2025
Auteurs: Stephen Chung, Wenyu Du, Jie Fu
cs.AI

Résumé

Des études récentes montrent que les capacités de raisonnement des modèles de langage à grande échelle (LLMs) peuvent être améliorées en appliquant l'apprentissage par renforcement (RL) à des tâches de question-réponse (QA) dans des domaines tels que les mathématiques et la programmation. Avec une longueur de contexte étendue, les LLMs peuvent apprendre à effectuer des recherches, comme l'indique le comportement d'auto-correction observé dans DeepSeek R1. Cependant, ce comportement de recherche est souvent imprécis et manque de confiance, entraînant des réponses longues et redondantes et mettant en lumière des lacunes dans l'intuition et la vérification. Inspirés par la théorie des processus doubles en psychologie, nous introduisons une modification simple de la tâche de QA qui inclut quatre étapes : la Pensée Rapide, où le LLM doit répondre dans un budget strict de tokens ; la Vérification, où le modèle évalue sa réponse initiale ; la Pensée Lente, où il affine la réponse initiale avec plus de réflexion ; et la Synthèse, où il condense l'affinement de l'étape précédente en étapes précises. Notre tâche proposée améliore la précision moyenne de 24,9 % à 27,9 % pour Qwen2.5-1.5B, et de 45,9 % à 49,8 % pour DeepSeek-R1-Qwen-1.5B. Notamment, pour Qwen2.5-1.5B, le mode Pensée Rapide seul atteint une précision de 26,8 % en utilisant moins de 1000 tokens, démontrant des gains substantiels en efficacité d'inférence. Ces résultats suggèrent que l'intuition et le raisonnement délibératif sont des systèmes distincts et complémentaires qui bénéficient d'un entraînement ciblé.
English
Recent studies show that the reasoning capabilities of Large Language Models (LLMs) can be improved by applying Reinforcement Learning (RL) to question-answering (QA) tasks in areas such as math and coding. With a long context length, LLMs may learn to perform search, as indicated by the self-correction behavior observed in DeepSeek R1. However, this search behavior is often imprecise and lacks confidence, resulting in long, redundant responses and highlighting deficiencies in intuition and verification. Inspired by the Dual Process Theory in psychology, we introduce a simple modification to the QA task that includes four stages: Fast Thinking, where the LLM must answer within a strict token budget; Verification, where the model evaluates its initial response; Slow Thinking, where it refines the initial response with more deliberation; and Summarization, where it distills the refinement from the previous stage into precise steps. Our proposed task improves average accuracy from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial inference efficiency gains. These findings suggest that intuition and deliberative reasoning are distinct, complementary systems benefiting from targeted training.

Summary

AI-Generated Summary

PDF103May 28, 2025