Het doorbreken van de capaciteitslimiet van LLM's na training door het opnieuw introduceren van Markov-toestanden

Samenvatting

Versterkend leren (RL) is een standaardparadigma geworden voor het na-trainen en afstemmen van grote taalmmodellen (LLM's), maar recent bewijs suggereert dat het een hardnekkig "vermogensplafond" tegenkomt: in tegenstelling tot klassieke RL-systemen die nieuwe strategieën ontdekken, fungeert RL voor LLM's vaak slechts als een verfijner van patronen die al latent aanwezig zijn in de vooraf getrainde gewichten. In dit werk identificeren we een fundamenteel structureel knelpunt: waar klassiek RL vertrouwt op compacte, informatieve Markov-toestanden, zijn huidige formuleringen voor het na-trainen van LLM's geketend aan een steeds uitdijende geschiedenis van acties. Wij herbezien een klassiek principe dat lang centraal stond in RL maar afwezig is bij het na-trainen van LLM's: expliciete Markov-toestanden. Theoretisch voorzien we rigoureuze garanties die aantonen dat het benutten van geschatte Markov-toestanden de samplecomplexiteit aanzienlijk kan verminderen. Empirisch tonen we aan dat de introductie van Markov-toestanden consistent de prestatiegrenzen van standaard RL na-training doorbreekt in een reeks complexe logische puzzels. Onze bevindingen suggereren dat het voorbijgaan aan "geschiedenis-als-toestand" modellering ten gunste van gestructureerde Markov-representaties essentieel is voor het ontsluiten van open-ended ontdekking en echt nieuwe redeneervermogens in Generatieve AI.

English

Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.

Het doorbreken van de capaciteitslimiet van LLM's na training door het opnieuw introduceren van Markov-toestanden

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Samenvatting

Support