Durch die Wiedereinführung von Markov-Zuständen die Fähigkeitsgrenzen von LLMs nach dem Training durchbrechen

Zusammenfassung

Reinforcement Learning (RL) hat sich als Standardparadigma für das Nachtraining und die Ausrichtung von Large Language Models (LLMs) etabliliert, doch jüngste Erkenntnisse deuten auf eine anhaltende "Fähigkeitsgrenze" hin: Im Gegensatz zu klassischen RL-Systemen, die neue Strategien entdecken, wirkt RL für LLMs oft lediglich als Verfeinerer von Mustern, die bereits latent in den vortrainierten Gewichten vorhanden sind. In dieser Arbeit identifizieren wir einen grundlegenden strukturellen Engpass: Während sich klassisches RL auf kompakte, informative Markov-Zustände stützt, sind aktuelle Formulierungen für das LLM-Nachtraining an eine sich ständig erweiternde Historie von Aktionen geknüpft. Wir beleuchten erneut ein klassisches Prinzip, das seit langem zentral für RL, jedoch beim LLM-Nachtraining abwesend ist: explizite Markov-Zustände. Theoretisch liefern wir rigorose Garantien, die demonstrieren, dass die Nutzung geschätzter Markov-Zustände die Probenkomplexität erheblich reduzieren kann. Empirisch zeigen wir, dass die Einführung von Markov-Zuständen durchgängig die Leistungsgrenzen des standardmäßigen RL-Nachtrainings über eine Reihe komplexer Logikrätsel hinweg durchbricht. Unsere Ergebnisse legen nahe, dass ein Schritt weg von der "Historie-als-Zustand"-Modellierung hin zu strukturierten Markovschen Repräsentationen entscheidend ist, um offene Entdeckung und genuin neue Reasoning-Fähigkeiten in Generative AI zu erschließen.

English

Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.

Durch die Wiedereinführung von Markov-Zuständen die Fähigkeitsgrenzen von LLMs nach dem Training durchbrechen

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Zusammenfassung

Support