Jenseits von Markov: Reflektive Exploration durch Bayes-adaptive RL für LLM-Argumentation

papers.abstract

Große Sprachmodelle (LLMs), die durch Reinforcement Learning (RL) trainiert wurden, haben starke Fähigkeiten im logischen Denken und emergente reflektierende Verhaltensweisen wie Rückverfolgung und Fehlerkorrektur gezeigt. Konventionelles Markovian RL beschränkt jedoch die Exploration auf die Trainingsphase, um eine optimale deterministische Policy zu erlernen, und hängt von den historischen Kontexten nur durch den aktuellen Zustand ab. Daher bleibt unklar, ob reflektierendes Denken während des Markovian RL-Trainings entsteht oder warum es zur Testzeit vorteilhaft ist. Um dies zu beheben, reformulieren wir die reflektierende Exploration im Rahmen des Bayes-Adaptive RL, das den erwarteten Ertrag explizit unter einer Posterior-Verteilung über Markov-Entscheidungsprozesse optimiert. Diese Bayes'sche Formulierung fördert sowohl belohnungsmaximierende Ausbeutung als auch informationssammlende Exploration durch Aktualisierungen der Überzeugungen. Unser resultierender Algorithmus, BARL, weist das LLM an, Strategien basierend auf den beobachteten Ergebnissen zu kombinieren und zu wechseln, und bietet prinzipielle Anleitungen, wann und wie das Modell reflektierend explorieren sollte. Empirische Ergebnisse sowohl bei synthetischen als auch bei mathematischen Denkaufgaben zeigen, dass BARL zur Testzeit Standardansätze des Markovian RL übertrifft und eine überlegene Token-Effizienz mit verbesserter Explorationseffektivität erreicht. Unser Code ist verfügbar unter https://github.com/shenao-zhang/BARL.

English

Large Language Models (LLMs) trained via Reinforcement Learning (RL) have exhibited strong reasoning capabilities and emergent reflective behaviors, such as backtracking and error correction. However, conventional Markovian RL confines exploration to the training phase to learn an optimal deterministic policy and depends on the history contexts only through the current state. Therefore, it remains unclear whether reflective reasoning will emerge during Markovian RL training, or why they are beneficial at test time. To remedy this, we recast reflective exploration within the Bayes-Adaptive RL framework, which explicitly optimizes the expected return under a posterior distribution over Markov decision processes. This Bayesian formulation inherently incentivizes both reward-maximizing exploitation and information-gathering exploration via belief updates. Our resulting algorithm, BARL, instructs the LLM to stitch and switch strategies based on the observed outcomes, offering principled guidance on when and how the model should reflectively explore. Empirical results on both synthetic and mathematical reasoning tasks demonstrate that BARL outperforms standard Markovian RL approaches at test time, achieving superior token efficiency with improved exploration effectiveness. Our code is available at https://github.com/shenao-zhang/BARL.

Jenseits von Markov: Reflektive Exploration durch Bayes-adaptive RL für LLM-Argumentation

Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

papers.abstract

Support