Преодоление потолка возможностей посттренировочных больших языковых моделей за счёт возвращения марковских состояний

Аннотация

Поведенческое обучение (ПО) стало стандартной парадигмой для пост-обучения и согласования больших языковых моделей (БЯМ), однако недавние данные свидетельствуют о существовании устойчивого «потолка возможностей»: в отличие от классических систем ПО, которые открывают новые стратегии, ПО для БЯМ часто выступает лишь в роли уточняющего инструмента для паттернов, уже заложенных в предварительно обученных весах. В данной работе мы выявляем фундаментальное структурное ограничение: в то время как классическое ПО опирается на компактные, информативные марковские состояния, современные подходы к пост-обучению БЯМ привязаны к постоянно расширяющейся истории действий. Мы возвращаемся к классическому принципу, долгое время бывшему центральным для ПО, но отсутствующему в пост-обучении БЯМ: явным марковским состояниям. Теоретически мы предоставляем строгие гарантии, демонстрирующие, что использование оцененных марковских состояний может значительно снизить сложность выборки. Экспериментально мы показываем, что введение марковских состояний последовательно преодолевает границы производительности стандартного ПО при пост-обучении на наборе сложных логических задач. Наши результаты позволяют предположить, что переход от моделирования «истории-как-состояния» к структурированным марковским представлениям необходим для раскрытия открытых discovery-процессов и подлинно новых рассуждений в генеративном искусственном интеллекте.

English

Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.

Преодоление потолка возможностей посттренировочных больших языковых моделей за счёт возвращения марковских состояний

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Аннотация

Support