El Pensador Markoviano
The Markovian Thinker
October 8, 2025
Autores: Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido recientemente en una estrategia sólida para entrenar modelos de lenguaje de razonamiento (LLMs) que producen cadenas largas de pensamiento (LongCoT). Sin embargo, el entorno estándar de "pensamiento" en RL, donde el estado es el prompt más todos los tokens de razonamiento previos, hace que el estado sea ilimitado y obliga a las políticas basadas en atención a incurrir en un coste computacional cuadrático a medida que los pensamientos se alargan. Revisamos el entorno en sí. Proponemos Pensamiento Markoviano, un paradigma en el que la política avanza el razonamiento condicionando un estado de tamaño constante, desacoplando la longitud del pensamiento del tamaño del contexto. Como consecuencia inmediata, esto produce un coste computacional lineal con memoria constante. Implementamos esta idea con Delethink, un entorno de RL que estructura el razonamiento en fragmentos de tamaño fijo. Dentro de cada fragmento, el modelo piensa como de costumbre; en el límite, el entorno reinicia el contexto y reinicializa el prompt con un breve resumen. A través de RL, la política aprende a escribir un estado textual cerca del final de cada fragmento suficiente para continuar el razonamiento sin interrupciones después del reinicio. Entrenado en este entorno, un modelo R1-Distill de 1.5B razona en fragmentos de 8K tokens pero piensa hasta 24K tokens, igualando o superando a LongCoT-RL entrenado con un presupuesto de 24K. Con escalado en tiempo de prueba, Delethink continúa mejorando donde LongCoT se estanca. El efecto del coste computacional lineal es sustancial: estimamos empíricamente que, con una longitud media de pensamiento de 96K, LongCoT-RL cuesta 27 meses-H100 frente a 7 para Delethink. Un análisis en la inicialización de RL muestra que los modelos de razonamiento estándar (1.5B-120B) a menudo muestrean trazas markovianas de manera inmediata en diversos benchmarks, proporcionando muestras positivas que hacen que RL sea efectivo a gran escala. Nuestros resultados demuestran que rediseñar el entorno de pensamiento es una palanca poderosa: permite razonamientos muy largos sin sobrecarga cuadrática y abre un camino hacia LLMs de razonamiento eficientes y escalables.
English
Reinforcement learning (RL) has recently become a strong recipe for training
reasoning LLMs that produce long chains of thought (LongCoT). Yet the standard
RL "thinking environment", where the state is the prompt plus all prior
reasoning tokens, makes the state unbounded and forces attention-based policies
to pay quadratic compute as thoughts lengthen. We revisit the environment
itself. We propose Markovian Thinking, a paradigm in which the policy advances
reasoning while conditioning on a constant-size state, decoupling thinking
length from context size. As an immediate consequence this yields linear
compute with constant memory. We instantiate this idea with Delethink, an RL
environment that structures reasoning into fixed-size chunks. Within each
chunk, the model thinks as usual; at the boundary, the environment resets the
context and reinitializes the prompt with a short carryover. Through RL, the
policy learns to write a textual state near the end of each chunk sufficient
for seamless continuation of reasoning after reset. Trained in this
environment, an R1-Distill 1.5B model reasons in 8K-token chunks yet thinks up
to 24K tokens, matching or surpassing LongCoT-RL trained with a 24K budget.
With test-time scaling, Delethink continues to improve where LongCoT plateaus.
The effect of linear compute is substantial: we empirically estimate at 96K
average thinking length LongCoT-RL costs 27 H100-months vs. 7 for Delethink.
Analysis at RL initialization shows off-the-shelf reasoning models (1.5B-120B)
often sample Markovian traces zero-shot across diverse benchmarks, providing
positive samples that make RL effective at scale. Our results show that
redesigning the thinking environment is a powerful lever: it enables very long
reasoning without quadratic overhead and opens a path toward efficient,
scalable reasoning LLMs.