Superare il Limite delle Capacità dei LLM nel Post-Addestramento Reintroducendo gli Stati di Markov

Abstract

L'apprendimento per rinforzo (RL) è diventato un paradigma standard per il post-addestramento e l'allineamento dei Large Language Model (LLM), eppure recenti evidenze suggeriscono che esso affronti un persistente "limite di capacità": a differenza dei sistemi RL classici che scoprono strategie innovative, il RL per gli LLM agisce spesso come un mero raffinatore di pattern già latenti nei pesi pre-addestrati. In questo lavoro, identifichiamo un collo di bottiglia strutturale fondamentale: mentre il RL classico si basa su stati di Markov compatti e informativi, le attuali formulazioni di post-addestramento per LLM sono vincolate a una storia di azioni in continua espansione. Revisitiamo un principio classico, a lungo centrale nel RL ma assente nel post-addestramento degli LLM: gli stati di Markov espliciti. Teoricamente, forniamo garanzie rigorose che dimostrano come lo sfruttamento di stati di Markov stimati possa ridurre significativamente la complessità campionaria. Empiricamente, mostriamo che l'introduzione di stati di Markov supera costantemente i limiti prestazionali del post-addestramento RL standard in una serie di complessi rompicapi logici. I nostri risultati suggeriscono che andare oltre la modellazione "della storia come stato" a favore di rappresentazioni markoviane strutturate è essenziale per sbloccare una scoperta aperta e capacità di ragionamento genuinamente nuove nell'IA generativa.

English

Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.

Superare il Limite delle Capacità dei LLM nel Post-Addestramento Reintroducendo gli Stati di Markov

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Abstract

Support