Voordelen en Valkuilen van Reinforcement Learning voor Taalmodelplanning: Een Theoretisch Perspectief
Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
September 26, 2025
Auteurs: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI
Samenvatting
Recente methoden voor reinforcement learning (RL) hebben de planningscapaciteiten van Large Language Models (LLMs) aanzienlijk verbeterd, maar de theoretische basis voor hun effectiviteit blijft ongrijpbaar. In dit werk onderzoeken we de voordelen en beperkingen van RL via een behapbare, op grafieken gebaseerde abstractie, met een focus op policy gradient (PG) en Q-learning methoden. Onze theoretische analyses tonen aan dat supervised fine-tuning (SFT) spurious oplossingen op basis van co-voorkomen kan introduceren, terwijl RL correct plannen bereikt voornamelijk door exploratie, wat de rol van exploratie benadrukt bij het mogelijk maken van betere generalisatie. We laten echter ook zien dat PG lijdt onder diversiteitscollaps, waarbij de uitvoerdiversiteit tijdens de training afneemt en zelfs na het bereiken van perfecte nauwkeurigheid blijft bestaan. Daarentegen biedt Q-learning twee belangrijke voordelen: off-policy leren en het behoud van diversiteit bij convergentie. We tonen verder aan dat een zorgvuldige beloningsontwerp noodzakelijk is om beloningsmanipulatie in Q-learning te voorkomen. Ten slotte, door ons framework toe te passen op de real-world planningsbenchmark Blocksworld, bevestigen we dat deze gedragingen in de praktijk voorkomen.
English
Recent reinforcement learning (RL) methods have substantially enhanced the
planning capabilities of Large Language Models (LLMs), yet the theoretical
basis for their effectiveness remains elusive. In this work, we investigate
RL's benefits and limitations through a tractable graph-based abstraction,
focusing on policy gradient (PG) and Q-learning methods. Our theoretical
analyses reveal that supervised fine-tuning (SFT) may introduce
co-occurrence-based spurious solutions, whereas RL achieves correct planning
primarily through exploration, underscoring exploration's role in enabling
better generalization. However, we also show that PG suffers from diversity
collapse, where output diversity decreases during training and persists even
after perfect accuracy is attained. By contrast, Q-learning provides two key
advantages: off-policy learning and diversity preservation at convergence. We
further demonstrate that careful reward design is necessary to prevent reward
hacking in Q-learning. Finally, applying our framework to the real-world
planning benchmark Blocksworld, we confirm that these behaviors manifest in
practice.