Il Pensatore Markoviano

Abstract

Il reinforcement learning (RL) è recentemente diventato una solida ricetta per addestrare modelli linguistici di ragionamento (LLM) che producono lunghe catene di pensiero (LongCoT). Tuttavia, l'ambiente di "pensiero" standard del RL, in cui lo stato è costituito dal prompt più tutti i token di ragionamento precedenti, rende lo stato illimitato e costringe le politiche basate sull'attenzione a sostenere un costo computazionale quadratico man mano che i pensieri si allungano. Rivediamo l'ambiente stesso. Proponiamo il Pensiero Markoviano, un paradigma in cui la politica avanza il ragionamento condizionandosi su uno stato di dimensione costante, disaccoppiando la lunghezza del pensiero dalla dimensione del contesto. Come conseguenza immediata, ciò produce un costo computazionale lineare con memoria costante. Istanziamo questa idea con Delethink, un ambiente RL che struttura il ragionamento in blocchi di dimensione fissa. All'interno di ogni blocco, il modello pensa come al solito; al confine, l'ambiente resetta il contesto e reinizializza il prompt con un breve riporto. Attraverso il RL, la politica impara a scrivere uno stato testuale verso la fine di ogni blocco sufficiente per una continuazione fluida del ragionamento dopo il reset. Addestrato in questo ambiente, un modello R1-Distill 1.5B ragiona in blocchi di 8K token ma pensa fino a 24K token, eguagliando o superando LongCoT-RL addestrato con un budget di 24K. Con lo scaling al momento del test, Delethink continua a migliorare laddove LongCoT raggiunge un plateau. L'effetto del costo computazionale lineare è sostanziale: stimiamo empiricamente che a una lunghezza media di pensiero di 96K, LongCoT-RL costa 27 mesi-H100 rispetto a 7 per Delethink. L'analisi all'inizializzazione del RL mostra che modelli di ragionamento preesistenti (1.5B-120B) spesso campionano tracce markoviane zero-shot su diversi benchmark, fornendo campioni positivi che rendono il RL efficace su larga scala. I nostri risultati dimostrano che ridisegnare l'ambiente di pensiero è una leva potente: consente ragionamenti molto lunghi senza sovraccarico quadratico e apre la strada a LLM di ragionamento efficienti e scalabili.

English

Reinforcement learning (RL) has recently become a strong recipe for training reasoning LLMs that produce long chains of thought (LongCoT). Yet the standard RL "thinking environment", where the state is the prompt plus all prior reasoning tokens, makes the state unbounded and forces attention-based policies to pay quadratic compute as thoughts lengthen. We revisit the environment itself. We propose Markovian Thinking, a paradigm in which the policy advances reasoning while conditioning on a constant-size state, decoupling thinking length from context size. As an immediate consequence this yields linear compute with constant memory. We instantiate this idea with Delethink, an RL environment that structures reasoning into fixed-size chunks. Within each chunk, the model thinks as usual; at the boundary, the environment resets the context and reinitializes the prompt with a short carryover. Through RL, the policy learns to write a textual state near the end of each chunk sufficient for seamless continuation of reasoning after reset. Trained in this environment, an R1-Distill 1.5B model reasons in 8K-token chunks yet thinks up to 24K tokens, matching or surpassing LongCoT-RL trained with a 24K budget. With test-time scaling, Delethink continues to improve where LongCoT plateaus. The effect of linear compute is substantial: we empirically estimate at 96K average thinking length LongCoT-RL costs 27 H100-months vs. 7 for Delethink. Analysis at RL initialization shows off-the-shelf reasoning models (1.5B-120B) often sample Markovian traces zero-shot across diverse benchmarks, providing positive samples that make RL effective at scale. Our results show that redesigning the thinking environment is a powerful lever: it enables very long reasoning without quadratic overhead and opens a path toward efficient, scalable reasoning LLMs.

Il Pensatore Markoviano

The Markovian Thinker

Abstract

Support