ChatPaper.aiChatPaper

Vor- und Nachteile von Reinforcement Learning für die Sprachmodellplanung: Eine theoretische Perspektive

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

September 26, 2025
papers.authors: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI

papers.abstract

Aktuelle Methoden des Reinforcement Learning (RL) haben die Planungsfähigkeiten von Large Language Models (LLMs) erheblich verbessert, doch die theoretische Grundlage für ihre Wirksamkeit bleibt unklar. In dieser Arbeit untersuchen wir die Vorteile und Grenzen von RL anhand einer handhabbaren, graphenbasierten Abstraktion, wobei wir uns auf Policy Gradient (PG) und Q-Learning-Methoden konzentrieren. Unsere theoretischen Analysen zeigen, dass Supervised Fine-Tuning (SFT) spuriöse Lösungen auf Basis von Kookkurrenzen einführen kann, während RL korrekte Planung hauptsächlich durch Exploration erreicht, was die Rolle der Exploration für eine bessere Generalisierung unterstreicht. Allerdings zeigen wir auch, dass PG unter einem Diversitätskollaps leidet, bei dem die Ausgabediversität während des Trainings abnimmt und selbst nach Erreichen perfekter Genauigkeit bestehen bleibt. Im Gegensatz dazu bietet Q-Learning zwei entscheidende Vorteile: Off-Policy-Lernen und die Bewahrung der Diversität bei Konvergenz. Wir demonstrieren weiterhin, dass ein sorgfältiges Reward-Design notwendig ist, um Reward-Hacking in Q-Learning zu verhindern. Schließlich bestätigen wir durch die Anwendung unseres Frameworks auf den realen Planungsbenchmark Blocksworld, dass diese Verhaltensweisen in der Praxis auftreten.
English
Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.
PDF41October 1, 2025