Der Markovsche Denker

papers.abstract

Reinforcement Learning (RL) hat sich kürzlich als eine effektive Methode zur Schulung von Reasoning-LLMs etabliert, die lange Gedankenketten (LongCoT) erzeugen. Doch die standardmäßige RL-"Denkumgebung", in der der Zustand aus dem Prompt und allen vorherigen Reasoning-Tokens besteht, führt zu einem unbegrenzten Zustandsraum und zwingt aufmerksamkeitsbasierte Policies, quadratischen Rechenaufwand zu betreiben, wenn die Gedanken länger werden. Wir überdenken die Umgebung selbst und schlagen Markovian Thinking vor, ein Paradigma, bei dem die Policy das Reasoning vorantreibt, während sie sich auf einen Zustand konstanter Größe stützt, wodurch die Denklänge von der Kontextgröße entkoppelt wird. Dies führt unmittelbar zu linearem Rechenaufwand mit konstantem Speicherbedarf. Wir konkretisieren diese Idee mit Delethink, einer RL-Umgebung, die das Reasoning in feste Größenblöcke strukturiert. Innerhalb jedes Blocks denkt das Modell wie gewohnt; an der Grenze setzt die Umgebung den Kontext zurück und initialisiert den Prompt mit einer kurzen Übertragung. Durch RL lernt die Policy, gegen Ende jedes Blocks einen textuellen Zustand zu schreiben, der ausreicht, um das Reasoning nach dem Zurücksetzen nahtlos fortzusetzen. Ein in dieser Umgebung trainiertes R1-Distill-1.5B-Modell führt das Reasoning in 8K-Token-Blöcken durch, denkt jedoch bis zu 24K Token, wobei es LongCoT-RL, das mit einem 24K-Budget trainiert wurde, erreicht oder übertrifft. Mit Test-Time-Scaling verbessert sich Delethink weiter, während LongCoT stagniert. Der Effekt des linearen Rechenaufwands ist erheblich: Wir schätzen empirisch, dass LongCoT-RL bei einer durchschnittlichen Denklänge von 96K 27 H100-Monate kostet, verglichen mit 7 für Delethink. Analysen zu Beginn des RL zeigen, dass vorgefertigte Reasoning-Modelle (1.5B-120B) oft Markovian Traces zero-shot über diverse Benchmarks hinweg erzeugen, was positive Beispiele liefert, die RL in großem Maßstab effektiv machen. Unsere Ergebnisse zeigen, dass die Neugestaltung der Denkumgebung ein mächtiger Hebel ist: Sie ermöglicht sehr langes Reasoning ohne quadratischen Overhead und eröffnet einen Weg zu effizienten, skalierbaren Reasoning-LLMs.

English

Reinforcement learning (RL) has recently become a strong recipe for training reasoning LLMs that produce long chains of thought (LongCoT). Yet the standard RL "thinking environment", where the state is the prompt plus all prior reasoning tokens, makes the state unbounded and forces attention-based policies to pay quadratic compute as thoughts lengthen. We revisit the environment itself. We propose Markovian Thinking, a paradigm in which the policy advances reasoning while conditioning on a constant-size state, decoupling thinking length from context size. As an immediate consequence this yields linear compute with constant memory. We instantiate this idea with Delethink, an RL environment that structures reasoning into fixed-size chunks. Within each chunk, the model thinks as usual; at the boundary, the environment resets the context and reinitializes the prompt with a short carryover. Through RL, the policy learns to write a textual state near the end of each chunk sufficient for seamless continuation of reasoning after reset. Trained in this environment, an R1-Distill 1.5B model reasons in 8K-token chunks yet thinks up to 24K tokens, matching or surpassing LongCoT-RL trained with a 24K budget. With test-time scaling, Delethink continues to improve where LongCoT plateaus. The effect of linear compute is substantial: we empirically estimate at 96K average thinking length LongCoT-RL costs 27 H100-months vs. 7 for Delethink. Analysis at RL initialization shows off-the-shelf reasoning models (1.5B-120B) often sample Markovian traces zero-shot across diverse benchmarks, providing positive samples that make RL effective at scale. Our results show that redesigning the thinking environment is a powerful lever: it enables very long reasoning without quadratic overhead and opens a path toward efficient, scalable reasoning LLMs.

Der Markovsche Denker

The Markovian Thinker

papers.abstract

Support