Vor- und Nachteile von Reinforcement Learning für die Sprachmodellplanung: Eine theoretische Perspektive
Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
September 26, 2025
papers.authors: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI
papers.abstract
Aktuelle Methoden des Reinforcement Learning (RL) haben die Planungsfähigkeiten von Large Language Models (LLMs) erheblich verbessert, doch die theoretische Grundlage für ihre Wirksamkeit bleibt unklar. In dieser Arbeit untersuchen wir die Vorteile und Grenzen von RL anhand einer handhabbaren, graphenbasierten Abstraktion, wobei wir uns auf Policy Gradient (PG) und Q-Learning-Methoden konzentrieren. Unsere theoretischen Analysen zeigen, dass Supervised Fine-Tuning (SFT) spuriöse Lösungen auf Basis von Kookkurrenzen einführen kann, während RL korrekte Planung hauptsächlich durch Exploration erreicht, was die Rolle der Exploration für eine bessere Generalisierung unterstreicht. Allerdings zeigen wir auch, dass PG unter einem Diversitätskollaps leidet, bei dem die Ausgabediversität während des Trainings abnimmt und selbst nach Erreichen perfekter Genauigkeit bestehen bleibt. Im Gegensatz dazu bietet Q-Learning zwei entscheidende Vorteile: Off-Policy-Lernen und die Bewahrung der Diversität bei Konvergenz. Wir demonstrieren weiterhin, dass ein sorgfältiges Reward-Design notwendig ist, um Reward-Hacking in Q-Learning zu verhindern. Schließlich bestätigen wir durch die Anwendung unseres Frameworks auf den realen Planungsbenchmark Blocksworld, dass diese Verhaltensweisen in der Praxis auftreten.
English
Recent reinforcement learning (RL) methods have substantially enhanced the
planning capabilities of Large Language Models (LLMs), yet the theoretical
basis for their effectiveness remains elusive. In this work, we investigate
RL's benefits and limitations through a tractable graph-based abstraction,
focusing on policy gradient (PG) and Q-learning methods. Our theoretical
analyses reveal that supervised fine-tuning (SFT) may introduce
co-occurrence-based spurious solutions, whereas RL achieves correct planning
primarily through exploration, underscoring exploration's role in enabling
better generalization. However, we also show that PG suffers from diversity
collapse, where output diversity decreases during training and persists even
after perfect accuracy is attained. By contrast, Q-learning provides two key
advantages: off-policy learning and diversity preservation at convergence. We
further demonstrate that careful reward design is necessary to prevent reward
hacking in Q-learning. Finally, applying our framework to the real-world
planning benchmark Blocksworld, we confirm that these behaviors manifest in
practice.