Franchir le Plafond des Capacités des LLM en Post-Formation par la Réintroduction d’États Markoviens

Résumé

L'apprentissage par renforcement (APR) est devenu un paradigme standard pour le post-entraînement et l'alignement des grands modèles de langage (LLM). Pourtant, des preuves récentes suggèrent qu'il se heurte à un "plafond de capacités" persistant : contrairement aux systèmes d'APR classiques qui découvrent de nouvelles stratégies, l'APR pour les LLM agit souvent comme un simple raffineur de modèles déjà latents dans les poids pré-entraînés. Dans ce travail, nous identifions un goulot d'étranglement structurel fondamental : alors que l'APR classique repose sur des états de Markov compacts et informatifs, les formulations actuelles du post-entraînement des LLM sont entravées par un historique d'actions sans cesse croissant. Nous revisitons un principe classique, longtemps central en APR mais absent du post-entraînement des LLM : les états de Markov explicites. Sur le plan théorique, nous fournissons des garanties rigoureuses démontrant que l'exploitation d'états de Markov estimés peut réduire significativement la complexité en échantillons. Empiriquement, nous montrons que l'introduction d'états de Markov dépasse systématiquement les limites de performance du post-entraînement par APR standard sur une série d'énigmes logiques complexes. Nos résultats suggèrent que dépasser la modélisation "de l'historique-comme-état" en faveur de représentations markoviennes structurées est essentiel pour débloquer la découverte ouverte et de véritables capacités de raisonnement nouvelles dans l'IA générative.

English

Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.

Franchir le Plafond des Capacités des LLM en Post-Formation par la Réintroduction d’États Markoviens

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Résumé

Support