Comportamientos cognitivos que permiten razonadores de auto-mejora, o, Los cuatro hábitos de los STaRs altamente efectivos
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
March 3, 2025
Autores: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman
cs.AI
Resumen
La inferencia en tiempo de prueba ha surgido como un paradigma poderoso para permitir que los modelos de lenguaje "piensen" más tiempo y con mayor cuidado sobre desafíos complejos, de manera similar a expertos humanos habilidosos. Si bien el aprendizaje por refuerzo (RL) puede impulsar la automejora en modelos de lenguaje para tareas verificables, algunos modelos muestran avances sustanciales mientras que otros rápidamente se estancan. Por ejemplo, encontramos que Qwen-2.5-3B supera ampliamente a Llama-3.2-3B bajo un entrenamiento de RL idéntico para el juego de Countdown. Esta discrepancia plantea una pregunta crítica: ¿qué propiedades intrínsecas permiten una automejora efectiva? Introducimos un marco para investigar esta pregunta analizando cuatro comportamientos cognitivos clave —verificación, retroceso, establecimiento de subobjetivos y encadenamiento hacia atrás— que tanto los expertos humanos en resolución de problemas como los modelos de lenguaje exitosos emplean. Nuestro estudio revela que Qwen exhibe naturalmente estos comportamientos de razonamiento, mientras que Llama inicialmente carece de ellos. En experimentación sistemática con conjuntos de datos conductuales controlados, encontramos que preparar a Llama con ejemplos que contienen estos comportamientos de razonamiento permite mejoras sustanciales durante el RL, igualando o superando el rendimiento de Qwen. Es importante destacar que la presencia de comportamientos de razonamiento, más que la corrección de las respuestas, resulta ser el factor crítico —los modelos preparados con soluciones incorrectas que contienen patrones de razonamiento adecuados logran un rendimiento comparable a aquellos entrenados con soluciones correctas. Finalmente, aprovechando un preentrenamiento continuo con datos de OpenWebMath, filtrados para amplificar los comportamientos de razonamiento, permite que el modelo Llama iguale la trayectoria de automejora de Qwen. Nuestros hallazgos establecen una relación fundamental entre los comportamientos de razonamiento iniciales y la capacidad de mejora, explicando por qué algunos modelos de lenguaje utilizan efectivamente computación adicional mientras que otros se estancan.
English
Test-time inference has emerged as a powerful paradigm for enabling language
models to ``think'' longer and more carefully about complex challenges, much
like skilled human experts. While reinforcement learning (RL) can drive
self-improvement in language models on verifiable tasks, some models exhibit
substantial gains while others quickly plateau. For instance, we find that
Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game
of Countdown. This discrepancy raises a critical question: what intrinsic
properties enable effective self-improvement? We introduce a framework to
investigate this question by analyzing four key cognitive behaviors --
verification, backtracking, subgoal setting, and backward chaining -- that both
expert human problem solvers and successful language models employ. Our study
reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama
initially lacks them. In systematic experimentation with controlled behavioral
datasets, we find that priming Llama with examples containing these reasoning
behaviors enables substantial improvements during RL, matching or exceeding
Qwen's performance. Importantly, the presence of reasoning behaviors, rather
than correctness of answers, proves to be the critical factor -- models primed
with incorrect solutions containing proper reasoning patterns achieve
comparable performance to those trained on correct solutions. Finally,
leveraging continued pretraining with OpenWebMath data, filtered to amplify
reasoning behaviors, enables the Llama model to match Qwen's self-improvement
trajectory. Our findings establish a fundamental relationship between initial
reasoning behaviors and the capacity for improvement, explaining why some
language models effectively utilize additional computation while others
plateau.Summary
AI-Generated Summary