O Pensador Markoviano

Resumo

O aprendizado por reforço (RL) tornou-se recentemente uma abordagem robusta para treinar modelos de linguagem de grande escala (LLMs) que produzem longas cadeias de raciocínio (LongCoT). No entanto, o ambiente padrão de "pensamento" do RL, onde o estado é o prompt mais todos os tokens de raciocínio anteriores, torna o estado ilimitado e força políticas baseadas em atenção a exigir computação quadrática à medida que os pensamentos se alongam. Revisitamos o próprio ambiente. Propomos o Pensamento Markoviano, um paradigma no qual a política avança o raciocínio condicionando-se a um estado de tamanho constante, desacoplando o comprimento do pensamento do tamanho do contexto. Como consequência imediata, isso resulta em computação linear com memória constante. Instanciamos essa ideia com o Delethink, um ambiente de RL que estrutura o raciocínio em blocos de tamanho fixo. Dentro de cada bloco, o modelo pensa como de costume; no limite, o ambiente redefine o contexto e reinicializa o prompt com uma breve continuidade. Por meio do RL, a política aprende a escrever um estado textual próximo ao final de cada bloco, suficiente para a continuação perfeita do raciocínio após a reinicialização. Treinado nesse ambiente, um modelo R1-Distill 1.5B raciocina em blocos de 8K tokens, mas pensa até 24K tokens, igualando ou superando o LongCoT-RL treinado com um orçamento de 24K. Com escalonamento em tempo de teste, o Delethink continua a melhorar onde o LongCoT atinge um platô. O efeito da computação linear é substancial: estimamos empiricamente que, com um comprimento médio de pensamento de 96K, o LongCoT-RL custa 27 meses-H100 contra 7 para o Delethink. Análises na inicialização do RL mostram que modelos de raciocínio prontos para uso (1.5B-120B) frequentemente amostram traços Markovianos zero-shot em diversos benchmarks, fornecendo amostras positivas que tornam o RL eficaz em escala. Nossos resultados mostram que redesenhar o ambiente de pensamento é uma alavanca poderosa: permite raciocínios muito longos sem sobrecarga quadrática e abre um caminho para LLMs de raciocínio eficientes e escaláveis.

English

Reinforcement learning (RL) has recently become a strong recipe for training reasoning LLMs that produce long chains of thought (LongCoT). Yet the standard RL "thinking environment", where the state is the prompt plus all prior reasoning tokens, makes the state unbounded and forces attention-based policies to pay quadratic compute as thoughts lengthen. We revisit the environment itself. We propose Markovian Thinking, a paradigm in which the policy advances reasoning while conditioning on a constant-size state, decoupling thinking length from context size. As an immediate consequence this yields linear compute with constant memory. We instantiate this idea with Delethink, an RL environment that structures reasoning into fixed-size chunks. Within each chunk, the model thinks as usual; at the boundary, the environment resets the context and reinitializes the prompt with a short carryover. Through RL, the policy learns to write a textual state near the end of each chunk sufficient for seamless continuation of reasoning after reset. Trained in this environment, an R1-Distill 1.5B model reasons in 8K-token chunks yet thinks up to 24K tokens, matching or surpassing LongCoT-RL trained with a 24K budget. With test-time scaling, Delethink continues to improve where LongCoT plateaus. The effect of linear compute is substantial: we empirically estimate at 96K average thinking length LongCoT-RL costs 27 H100-months vs. 7 for Delethink. Analysis at RL initialization shows off-the-shelf reasoning models (1.5B-120B) often sample Markovian traces zero-shot across diverse benchmarks, providing positive samples that make RL effective at scale. Our results show that redesigning the thinking environment is a powerful lever: it enables very long reasoning without quadratic overhead and opens a path toward efficient, scalable reasoning LLMs.

O Pensador Markoviano

The Markovian Thinker

Resumo

Support