Jenseits von Markov: Reflektive Exploration durch Bayes-adaptive RL für LLM-Argumentation
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning
May 26, 2025
Autoren: Shenao Zhang, Yaqing Wang, Yinxiao Liu, Tianqi Liu, Peter Grabowski, Eugene Ie, Zhaoran Wang, Yunxuan Li
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs), die durch Reinforcement Learning (RL) trainiert wurden, haben starke Fähigkeiten im logischen Denken und emergente reflektierende Verhaltensweisen wie Rückverfolgung und Fehlerkorrektur gezeigt. Konventionelles Markovian RL beschränkt jedoch die Exploration auf die Trainingsphase, um eine optimale deterministische Policy zu erlernen, und hängt von den historischen Kontexten nur durch den aktuellen Zustand ab. Daher bleibt unklar, ob reflektierendes Denken während des Markovian RL-Trainings entsteht oder warum es zur Testzeit vorteilhaft ist. Um dies zu beheben, reformulieren wir die reflektierende Exploration im Rahmen des Bayes-Adaptive RL, das den erwarteten Ertrag explizit unter einer Posterior-Verteilung über Markov-Entscheidungsprozesse optimiert. Diese Bayes'sche Formulierung fördert sowohl belohnungsmaximierende Ausbeutung als auch informationssammlende Exploration durch Aktualisierungen der Überzeugungen. Unser resultierender Algorithmus, BARL, weist das LLM an, Strategien basierend auf den beobachteten Ergebnissen zu kombinieren und zu wechseln, und bietet prinzipielle Anleitungen, wann und wie das Modell reflektierend explorieren sollte. Empirische Ergebnisse sowohl bei synthetischen als auch bei mathematischen Denkaufgaben zeigen, dass BARL zur Testzeit Standardansätze des Markovian RL übertrifft und eine überlegene Token-Effizienz mit verbesserter Explorationseffektivität erreicht. Unser Code ist verfügbar unter https://github.com/shenao-zhang/BARL.
English
Large Language Models (LLMs) trained via Reinforcement Learning (RL) have
exhibited strong reasoning capabilities and emergent reflective behaviors, such
as backtracking and error correction. However, conventional Markovian RL
confines exploration to the training phase to learn an optimal deterministic
policy and depends on the history contexts only through the current state.
Therefore, it remains unclear whether reflective reasoning will emerge during
Markovian RL training, or why they are beneficial at test time. To remedy this,
we recast reflective exploration within the Bayes-Adaptive RL framework, which
explicitly optimizes the expected return under a posterior distribution over
Markov decision processes. This Bayesian formulation inherently incentivizes
both reward-maximizing exploitation and information-gathering exploration via
belief updates. Our resulting algorithm, BARL, instructs the LLM to stitch and
switch strategies based on the observed outcomes, offering principled guidance
on when and how the model should reflectively explore. Empirical results on
both synthetic and mathematical reasoning tasks demonstrate that BARL
outperforms standard Markovian RL approaches at test time, achieving superior
token efficiency with improved exploration effectiveness. Our code is available
at https://github.com/shenao-zhang/BARL.Summary
AI-Generated Summary