Марковский Мыслитель
The Markovian Thinker
October 8, 2025
Авторы: Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy
cs.AI
Аннотация
Обучение с подкреплением (RL) недавно стало мощным инструментом для тренировки языковых моделей (LLM), способных генерировать длинные цепочки рассуждений (LongCoT). Однако стандартная "среда мышления" RL, где состояние включает промт и все предыдущие токены рассуждений, делает состояние неограниченным и вынуждает политики, основанные на внимании, тратить квадратичные вычислительные ресурсы по мере увеличения длины рассуждений. Мы пересматриваем саму среду. Мы предлагаем подход "Марковское мышление" — парадигму, в которой политика продвигает рассуждения, основываясь на состоянии фиксированного размера, что отделяет длину мышления от размера контекста. Это сразу приводит к линейным вычислениям с постоянной памятью. Мы реализуем эту идею в среде Delethink, которая структурирует рассуждения в блоки фиксированного размера. Внутри каждого блока модель рассуждает как обычно; на границе блока среда сбрасывает контекст и переинициализирует промт с кратким переносом. С помощью RL политика учится записывать текстовое состояние ближе к концу каждого блока, достаточное для бесшовного продолжения рассуждений после сброса. Обученная в этой среде модель R1-Distill 1.5B рассуждает в блоках по 8K токенов, но мыслит до 24K токенов, сопоставимо или превосходя LongCoT-RL, обученную с бюджетом в 24K токена. При масштабировании во время тестирования Delethink продолжает улучшаться там, где LongCoT выходит на плато. Эффект линейных вычислений значителен: мы эмпирически оцениваем, что при средней длине рассуждений в 96K токенов LongCoT-RL требует 27 месяцев работы на H100 против 7 для Delethink. Анализ на этапе инициализации RL показывает, что готовые модели рассуждений (1.5B-120B) часто генерируют марковские траектории "из коробки" на различных бенчмарках, предоставляя положительные примеры, которые делают RL эффективным в масштабе. Наши результаты показывают, что перепроектирование среды мышления — это мощный рычаг: оно позволяет осуществлять очень длинные рассуждения без квадратичных накладных расходов и открывает путь к созданию эффективных и масштабируемых LLM для рассуждений.
English
Reinforcement learning (RL) has recently become a strong recipe for training
reasoning LLMs that produce long chains of thought (LongCoT). Yet the standard
RL "thinking environment", where the state is the prompt plus all prior
reasoning tokens, makes the state unbounded and forces attention-based policies
to pay quadratic compute as thoughts lengthen. We revisit the environment
itself. We propose Markovian Thinking, a paradigm in which the policy advances
reasoning while conditioning on a constant-size state, decoupling thinking
length from context size. As an immediate consequence this yields linear
compute with constant memory. We instantiate this idea with Delethink, an RL
environment that structures reasoning into fixed-size chunks. Within each
chunk, the model thinks as usual; at the boundary, the environment resets the
context and reinitializes the prompt with a short carryover. Through RL, the
policy learns to write a textual state near the end of each chunk sufficient
for seamless continuation of reasoning after reset. Trained in this
environment, an R1-Distill 1.5B model reasons in 8K-token chunks yet thinks up
to 24K tokens, matching or surpassing LongCoT-RL trained with a 24K budget.
With test-time scaling, Delethink continues to improve where LongCoT plateaus.
The effect of linear compute is substantial: we empirically estimate at 96K
average thinking length LongCoT-RL costs 27 H100-months vs. 7 for Delethink.
Analysis at RL initialization shows off-the-shelf reasoning models (1.5B-120B)
often sample Markovian traces zero-shot across diverse benchmarks, providing
positive samples that make RL effective at scale. Our results show that
redesigning the thinking environment is a powerful lever: it enables very long
reasoning without quadratic overhead and opens a path toward efficient,
scalable reasoning LLMs.