Thinker: Aprendiendo a pensar rápido y despacio

Resumen

Estudios recientes muestran que las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden mejorarse aplicando Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a tareas de preguntas y respuestas (QA, por sus siglas en inglés) en áreas como matemáticas y programación. Con un contexto extenso, los LLMs pueden aprender a realizar búsquedas, como lo indica el comportamiento de autocorrección observado en DeepSeek R1. Sin embargo, este comportamiento de búsqueda suele ser impreciso y carece de confianza, lo que resulta en respuestas largas y redundantes, destacando deficiencias en la intuición y la verificación. Inspirados por la Teoría del Proceso Dual en psicología, introducimos una modificación simple a la tarea de QA que incluye cuatro etapas: Pensamiento Rápido, donde el LLM debe responder dentro de un límite estricto de tokens; Verificación, donde el modelo evalúa su respuesta inicial; Pensamiento Lento, donde refina la respuesta inicial con mayor deliberación; y Resumen, donde condensa el refinamiento de la etapa anterior en pasos precisos. Nuestra tarea propuesta mejora la precisión promedio de 24.9% a 27.9% para Qwen2.5-1.5B, y de 45.9% a 49.8% para DeepSeek-R1-Qwen-1.5B. Notablemente, para Qwen2.5-1.5B, el modo de Pensamiento Rápido por sí solo alcanza un 26.8% de precisión utilizando menos de 1000 tokens, demostrando ganancias sustanciales en eficiencia de inferencia. Estos hallazgos sugieren que la intuición y el razonamiento deliberativo son sistemas distintos y complementarios que se benefician de un entrenamiento específico.

English

Recent studies show that the reasoning capabilities of Large Language Models (LLMs) can be improved by applying Reinforcement Learning (RL) to question-answering (QA) tasks in areas such as math and coding. With a long context length, LLMs may learn to perform search, as indicated by the self-correction behavior observed in DeepSeek R1. However, this search behavior is often imprecise and lacks confidence, resulting in long, redundant responses and highlighting deficiencies in intuition and verification. Inspired by the Dual Process Theory in psychology, we introduce a simple modification to the QA task that includes four stages: Fast Thinking, where the LLM must answer within a strict token budget; Verification, where the model evaluates its initial response; Slow Thinking, where it refines the initial response with more deliberation; and Summarization, where it distills the refinement from the previous stage into precise steps. Our proposed task improves average accuracy from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial inference efficiency gains. These findings suggest that intuition and deliberative reasoning are distinct, complementary systems benefiting from targeted training.

Thinker: Aprendiendo a pensar rápido y despacio

Thinker: Learning to Think Fast and Slow

Resumen

Support