Avantages et Pièges de l'Apprentissage par Renforcement pour la Planification des Modèles de Langage : Une Perspective Théorique

papers.abstract

Les méthodes récentes d'apprentissage par renforcement (RL) ont considérablement amélioré les capacités de planification des grands modèles de langage (LLMs), mais les bases théoriques de leur efficacité restent floues. Dans ce travail, nous étudions les avantages et les limites du RL à travers une abstraction basée sur des graphes, en nous concentrant sur les méthodes de gradient de politique (PG) et de Q-learning. Nos analyses théoriques révèlent que le fine-tuning supervisé (SFT) peut introduire des solutions fallacieuses basées sur la co-occurrence, tandis que le RL atteint une planification correcte principalement grâce à l'exploration, soulignant ainsi le rôle de l'exploration dans l'amélioration de la généralisation. Cependant, nous montrons également que le PG souffre d'un effondrement de la diversité, où la diversité des sorties diminue pendant l'entraînement et persiste même après avoir atteint une précision parfaite. En revanche, le Q-learning offre deux avantages clés : l'apprentissage hors politique et la préservation de la diversité à la convergence. Nous démontrons en outre qu'une conception minutieuse des récompenses est nécessaire pour éviter le détournement de récompenses dans le Q-learning. Enfin, en appliquant notre cadre au benchmark de planification du monde réel Blocksworld, nous confirmons que ces comportements se manifestent dans la pratique.

English

Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.

Avantages et Pièges de l'Apprentissage par Renforcement pour la Planification des Modèles de Langage : Une Perspective Théorique

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

papers.abstract

Support