ChatPaper.aiChatPaper

Le Penseur Markovien

The Markovian Thinker

October 8, 2025
papers.authors: Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) est récemment devenu une méthode puissante pour entraîner des modèles de langage (LLMs) capables de produire de longues chaînes de raisonnement (LongCoT). Cependant, l'environnement de "pensée" standard en RL, où l'état est constitué de l'invite (prompt) et de tous les tokens de raisonnement précédents, rend l'état illimité et impose aux politiques basées sur l'attention un coût de calcul quadratique à mesure que les raisonnements s'allongent. Nous revisitons l'environnement lui-même. Nous proposons la Pensée Markovienne, un paradigme dans lequel la politique progresse dans le raisonnement en se basant sur un état de taille constante, découplant ainsi la longueur de la pensée de la taille du contexte. Cela entraîne immédiatement un calcul linéaire avec une mémoire constante. Nous concrétisons cette idée avec Delethink, un environnement de RL qui structure le raisonnement en blocs de taille fixe. Dans chaque bloc, le modèle pense comme d'habitude ; à la frontière, l'environnement réinitialise le contexte et réinitialise l'invite avec un court rappel. Grâce au RL, la politique apprend à écrire un état textuel vers la fin de chaque bloc, suffisant pour une continuation fluide du raisonnement après la réinitialisation. Entraîné dans cet environnement, un modèle R1-Distill 1.5B raisonne en blocs de 8K tokens tout en pensant jusqu'à 24K tokens, égalant ou surpassant LongCoT-RL entraîné avec un budget de 24K. Avec une mise à l'échelle au moment du test, Delethink continue de s'améliorer là où LongCoT plafonne. L'effet du calcul linéaire est substantiel : nous estimons empiriquement qu'à une longueur de pensée moyenne de 96K, LongCoT-RL coûte 27 mois-H100 contre 7 pour Delethink. Une analyse à l'initialisation du RL montre que les modèles de raisonnement prêts à l'emploi (1.5B-120B) produisent souvent des traces markoviennes de manière zero-shot sur divers benchmarks, fournissant des échantillons positifs qui rendent le RL efficace à grande échelle. Nos résultats montrent que repenser l'environnement de pensée est un levier puissant : il permet des raisonnements très longs sans surcharge quadratique et ouvre la voie à des LLMs de raisonnement efficaces et évolutifs.
English
Reinforcement learning (RL) has recently become a strong recipe for training reasoning LLMs that produce long chains of thought (LongCoT). Yet the standard RL "thinking environment", where the state is the prompt plus all prior reasoning tokens, makes the state unbounded and forces attention-based policies to pay quadratic compute as thoughts lengthen. We revisit the environment itself. We propose Markovian Thinking, a paradigm in which the policy advances reasoning while conditioning on a constant-size state, decoupling thinking length from context size. As an immediate consequence this yields linear compute with constant memory. We instantiate this idea with Delethink, an RL environment that structures reasoning into fixed-size chunks. Within each chunk, the model thinks as usual; at the boundary, the environment resets the context and reinitializes the prompt with a short carryover. Through RL, the policy learns to write a textual state near the end of each chunk sufficient for seamless continuation of reasoning after reset. Trained in this environment, an R1-Distill 1.5B model reasons in 8K-token chunks yet thinks up to 24K tokens, matching or surpassing LongCoT-RL trained with a 24K budget. With test-time scaling, Delethink continues to improve where LongCoT plateaus. The effect of linear compute is substantial: we empirically estimate at 96K average thinking length LongCoT-RL costs 27 H100-months vs. 7 for Delethink. Analysis at RL initialization shows off-the-shelf reasoning models (1.5B-120B) often sample Markovian traces zero-shot across diverse benchmarks, providing positive samples that make RL effective at scale. Our results show that redesigning the thinking environment is a powerful lever: it enables very long reasoning without quadratic overhead and opens a path toward efficient, scalable reasoning LLMs.
PDF182October 9, 2025