Vantaggi e Insidie del Reinforcement Learning per la Pianificazione di Modelli Linguistici: Una Prospettiva Teorica
Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
September 26, 2025
Autori: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI
Abstract
I recenti metodi di apprendimento per rinforzo (RL) hanno notevolmente migliorato le capacità di pianificazione dei Modelli Linguistici di Grande Dimensione (LLMs), tuttavia la base teorica della loro efficacia rimane elusiva. In questo lavoro, investigiamo i benefici e i limiti dell'RL attraverso un'astrazione trattabile basata su grafi, concentrandoci sui metodi di policy gradient (PG) e Q-learning. Le nostre analisi teoriche rivelano che il fine-tuning supervisionato (SFT) può introdurre soluzioni spurie basate sulla co-occorrenza, mentre l'RL raggiunge una pianificazione corretta principalmente attraverso l'esplorazione, sottolineando il ruolo dell'esplorazione nel consentire una migliore generalizzazione. Tuttavia, mostriamo anche che il PG soffre di collasso della diversità, dove la diversità degli output diminuisce durante l'addestramento e persiste anche dopo aver raggiunto un'accuratezza perfetta. Al contrario, il Q-learning offre due vantaggi chiave: apprendimento off-policy e preservazione della diversità alla convergenza. Dimostriamo inoltre che un'attenta progettazione della ricompensa è necessaria per prevenire il reward hacking nel Q-learning. Infine, applicando il nostro framework al benchmark di pianificazione del mondo reale Blocksworld, confermiamo che questi comportamenti si manifestano nella pratica.
English
Recent reinforcement learning (RL) methods have substantially enhanced the
planning capabilities of Large Language Models (LLMs), yet the theoretical
basis for their effectiveness remains elusive. In this work, we investigate
RL's benefits and limitations through a tractable graph-based abstraction,
focusing on policy gradient (PG) and Q-learning methods. Our theoretical
analyses reveal that supervised fine-tuning (SFT) may introduce
co-occurrence-based spurious solutions, whereas RL achieves correct planning
primarily through exploration, underscoring exploration's role in enabling
better generalization. However, we also show that PG suffers from diversity
collapse, where output diversity decreases during training and persists even
after perfect accuracy is attained. By contrast, Q-learning provides two key
advantages: off-policy learning and diversity preservation at convergence. We
further demonstrate that careful reward design is necessary to prevent reward
hacking in Q-learning. Finally, applying our framework to the real-world
planning benchmark Blocksworld, we confirm that these behaviors manifest in
practice.