El Pensador Markoviano

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido recientemente en una estrategia sólida para entrenar modelos de lenguaje de razonamiento (LLMs) que producen cadenas largas de pensamiento (LongCoT). Sin embargo, el entorno estándar de "pensamiento" en RL, donde el estado es el prompt más todos los tokens de razonamiento previos, hace que el estado sea ilimitado y obliga a las políticas basadas en atención a incurrir en un coste computacional cuadrático a medida que los pensamientos se alargan. Revisamos el entorno en sí. Proponemos Pensamiento Markoviano, un paradigma en el que la política avanza el razonamiento condicionando un estado de tamaño constante, desacoplando la longitud del pensamiento del tamaño del contexto. Como consecuencia inmediata, esto produce un coste computacional lineal con memoria constante. Implementamos esta idea con Delethink, un entorno de RL que estructura el razonamiento en fragmentos de tamaño fijo. Dentro de cada fragmento, el modelo piensa como de costumbre; en el límite, el entorno reinicia el contexto y reinicializa el prompt con un breve resumen. A través de RL, la política aprende a escribir un estado textual cerca del final de cada fragmento suficiente para continuar el razonamiento sin interrupciones después del reinicio. Entrenado en este entorno, un modelo R1-Distill de 1.5B razona en fragmentos de 8K tokens pero piensa hasta 24K tokens, igualando o superando a LongCoT-RL entrenado con un presupuesto de 24K. Con escalado en tiempo de prueba, Delethink continúa mejorando donde LongCoT se estanca. El efecto del coste computacional lineal es sustancial: estimamos empíricamente que, con una longitud media de pensamiento de 96K, LongCoT-RL cuesta 27 meses-H100 frente a 7 para Delethink. Un análisis en la inicialización de RL muestra que los modelos de razonamiento estándar (1.5B-120B) a menudo muestrean trazas markovianas de manera inmediata en diversos benchmarks, proporcionando muestras positivas que hacen que RL sea efectivo a gran escala. Nuestros resultados demuestran que rediseñar el entorno de pensamiento es una palanca poderosa: permite razonamientos muy largos sin sobrecarga cuadrática y abre un camino hacia LLMs de razonamiento eficientes y escalables.

English

Reinforcement learning (RL) has recently become a strong recipe for training reasoning LLMs that produce long chains of thought (LongCoT). Yet the standard RL "thinking environment", where the state is the prompt plus all prior reasoning tokens, makes the state unbounded and forces attention-based policies to pay quadratic compute as thoughts lengthen. We revisit the environment itself. We propose Markovian Thinking, a paradigm in which the policy advances reasoning while conditioning on a constant-size state, decoupling thinking length from context size. As an immediate consequence this yields linear compute with constant memory. We instantiate this idea with Delethink, an RL environment that structures reasoning into fixed-size chunks. Within each chunk, the model thinks as usual; at the boundary, the environment resets the context and reinitializes the prompt with a short carryover. Through RL, the policy learns to write a textual state near the end of each chunk sufficient for seamless continuation of reasoning after reset. Trained in this environment, an R1-Distill 1.5B model reasons in 8K-token chunks yet thinks up to 24K tokens, matching or surpassing LongCoT-RL trained with a 24K budget. With test-time scaling, Delethink continues to improve where LongCoT plateaus. The effect of linear compute is substantial: we empirically estimate at 96K average thinking length LongCoT-RL costs 27 H100-months vs. 7 for Delethink. Analysis at RL initialization shows off-the-shelf reasoning models (1.5B-120B) often sample Markovian traces zero-shot across diverse benchmarks, providing positive samples that make RL effective at scale. Our results show that redesigning the thinking environment is a powerful lever: it enables very long reasoning without quadratic overhead and opens a path toward efficient, scalable reasoning LLMs.

El Pensador Markoviano

The Markovian Thinker

Resumen

Support