Avantages et Pièges de l'Apprentissage par Renforcement pour la Planification des Modèles de Langage : Une Perspective Théorique
Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
September 26, 2025
papers.authors: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI
papers.abstract
Les méthodes récentes d'apprentissage par renforcement (RL) ont considérablement amélioré les capacités de planification des grands modèles de langage (LLMs), mais les bases théoriques de leur efficacité restent floues. Dans ce travail, nous étudions les avantages et les limites du RL à travers une abstraction basée sur des graphes, en nous concentrant sur les méthodes de gradient de politique (PG) et de Q-learning. Nos analyses théoriques révèlent que le fine-tuning supervisé (SFT) peut introduire des solutions fallacieuses basées sur la co-occurrence, tandis que le RL atteint une planification correcte principalement grâce à l'exploration, soulignant ainsi le rôle de l'exploration dans l'amélioration de la généralisation. Cependant, nous montrons également que le PG souffre d'un effondrement de la diversité, où la diversité des sorties diminue pendant l'entraînement et persiste même après avoir atteint une précision parfaite. En revanche, le Q-learning offre deux avantages clés : l'apprentissage hors politique et la préservation de la diversité à la convergence. Nous démontrons en outre qu'une conception minutieuse des récompenses est nécessaire pour éviter le détournement de récompenses dans le Q-learning. Enfin, en appliquant notre cadre au benchmark de planification du monde réel Blocksworld, nous confirmons que ces comportements se manifestent dans la pratique.
English
Recent reinforcement learning (RL) methods have substantially enhanced the
planning capabilities of Large Language Models (LLMs), yet the theoretical
basis for their effectiveness remains elusive. In this work, we investigate
RL's benefits and limitations through a tractable graph-based abstraction,
focusing on policy gradient (PG) and Q-learning methods. Our theoretical
analyses reveal that supervised fine-tuning (SFT) may introduce
co-occurrence-based spurious solutions, whereas RL achieves correct planning
primarily through exploration, underscoring exploration's role in enabling
better generalization. However, we also show that PG suffers from diversity
collapse, where output diversity decreases during training and persists even
after perfect accuracy is attained. By contrast, Q-learning provides two key
advantages: off-policy learning and diversity preservation at convergence. We
further demonstrate that careful reward design is necessary to prevent reward
hacking in Q-learning. Finally, applying our framework to the real-world
planning benchmark Blocksworld, we confirm that these behaviors manifest in
practice.