Vantaggi e Insidie del Reinforcement Learning per la Pianificazione di Modelli Linguistici: Una Prospettiva Teorica

Abstract

I recenti metodi di apprendimento per rinforzo (RL) hanno notevolmente migliorato le capacità di pianificazione dei Modelli Linguistici di Grande Dimensione (LLMs), tuttavia la base teorica della loro efficacia rimane elusiva. In questo lavoro, investigiamo i benefici e i limiti dell'RL attraverso un'astrazione trattabile basata su grafi, concentrandoci sui metodi di policy gradient (PG) e Q-learning. Le nostre analisi teoriche rivelano che il fine-tuning supervisionato (SFT) può introdurre soluzioni spurie basate sulla co-occorrenza, mentre l'RL raggiunge una pianificazione corretta principalmente attraverso l'esplorazione, sottolineando il ruolo dell'esplorazione nel consentire una migliore generalizzazione. Tuttavia, mostriamo anche che il PG soffre di collasso della diversità, dove la diversità degli output diminuisce durante l'addestramento e persiste anche dopo aver raggiunto un'accuratezza perfetta. Al contrario, il Q-learning offre due vantaggi chiave: apprendimento off-policy e preservazione della diversità alla convergenza. Dimostriamo inoltre che un'attenta progettazione della ricompensa è necessaria per prevenire il reward hacking nel Q-learning. Infine, applicando il nostro framework al benchmark di pianificazione del mondo reale Blocksworld, confermiamo che questi comportamenti si manifestano nella pratica.

English

Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.

Vantaggi e Insidie del Reinforcement Learning per la Pianificazione di Modelli Linguistici: Una Prospettiva Teorica

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Abstract

Support