Voordelen en Valkuilen van Reinforcement Learning voor Taalmodelplanning: Een Theoretisch Perspectief

Samenvatting

Recente methoden voor reinforcement learning (RL) hebben de planningscapaciteiten van Large Language Models (LLMs) aanzienlijk verbeterd, maar de theoretische basis voor hun effectiviteit blijft ongrijpbaar. In dit werk onderzoeken we de voordelen en beperkingen van RL via een behapbare, op grafieken gebaseerde abstractie, met een focus op policy gradient (PG) en Q-learning methoden. Onze theoretische analyses tonen aan dat supervised fine-tuning (SFT) spurious oplossingen op basis van co-voorkomen kan introduceren, terwijl RL correct plannen bereikt voornamelijk door exploratie, wat de rol van exploratie benadrukt bij het mogelijk maken van betere generalisatie. We laten echter ook zien dat PG lijdt onder diversiteitscollaps, waarbij de uitvoerdiversiteit tijdens de training afneemt en zelfs na het bereiken van perfecte nauwkeurigheid blijft bestaan. Daarentegen biedt Q-learning twee belangrijke voordelen: off-policy leren en het behoud van diversiteit bij convergentie. We tonen verder aan dat een zorgvuldige beloningsontwerp noodzakelijk is om beloningsmanipulatie in Q-learning te voorkomen. Ten slotte, door ons framework toe te passen op de real-world planningsbenchmark Blocksworld, bevestigen we dat deze gedragingen in de praktijk voorkomen.

English

Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.

Voordelen en Valkuilen van Reinforcement Learning voor Taalmodelplanning: Een Theoretisch Perspectief

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Samenvatting

Support