Thinker: Aprendiendo a pensar rápido y despacio
Thinker: Learning to Think Fast and Slow
May 27, 2025
Autores: Stephen Chung, Wenyu Du, Jie Fu
cs.AI
Resumen
Estudios recientes muestran que las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden mejorarse aplicando Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a tareas de preguntas y respuestas (QA, por sus siglas en inglés) en áreas como matemáticas y programación. Con un contexto extenso, los LLMs pueden aprender a realizar búsquedas, como lo indica el comportamiento de autocorrección observado en DeepSeek R1. Sin embargo, este comportamiento de búsqueda suele ser impreciso y carece de confianza, lo que resulta en respuestas largas y redundantes, destacando deficiencias en la intuición y la verificación. Inspirados por la Teoría del Proceso Dual en psicología, introducimos una modificación simple a la tarea de QA que incluye cuatro etapas: Pensamiento Rápido, donde el LLM debe responder dentro de un límite estricto de tokens; Verificación, donde el modelo evalúa su respuesta inicial; Pensamiento Lento, donde refina la respuesta inicial con mayor deliberación; y Resumen, donde condensa el refinamiento de la etapa anterior en pasos precisos. Nuestra tarea propuesta mejora la precisión promedio de 24.9% a 27.9% para Qwen2.5-1.5B, y de 45.9% a 49.8% para DeepSeek-R1-Qwen-1.5B. Notablemente, para Qwen2.5-1.5B, el modo de Pensamiento Rápido por sí solo alcanza un 26.8% de precisión utilizando menos de 1000 tokens, demostrando ganancias sustanciales en eficiencia de inferencia. Estos hallazgos sugieren que la intuición y el razonamiento deliberativo son sistemas distintos y complementarios que se benefician de un entrenamiento específico.
English
Recent studies show that the reasoning capabilities of Large Language Models
(LLMs) can be improved by applying Reinforcement Learning (RL) to
question-answering (QA) tasks in areas such as math and coding. With a long
context length, LLMs may learn to perform search, as indicated by the
self-correction behavior observed in DeepSeek R1. However, this search behavior
is often imprecise and lacks confidence, resulting in long, redundant responses
and highlighting deficiencies in intuition and verification. Inspired by the
Dual Process Theory in psychology, we introduce a simple modification to the QA
task that includes four stages: Fast Thinking, where the LLM must answer within
a strict token budget; Verification, where the model evaluates its initial
response; Slow Thinking, where it refines the initial response with more
deliberation; and Summarization, where it distills the refinement from the
previous stage into precise steps. Our proposed task improves average accuracy
from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for
DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone
achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial
inference efficiency gains. These findings suggest that intuition and
deliberative reasoning are distinct, complementary systems benefiting from
targeted training.Summary
AI-Generated Summary