Benefícios e Armadilhas do Aprendizado por Reforço para o Planejamento de Modelos de Linguagem: Uma Perspectiva Teórica

Resumo

Métodos recentes de aprendizado por reforço (RL) têm aprimorado substancialmente as capacidades de planejamento de Modelos de Linguagem de Grande Escala (LLMs), embora a base teórica para sua eficácia permaneça elusiva. Neste trabalho, investigamos os benefícios e limitações do RL por meio de uma abstração tratável baseada em grafos, focando nos métodos de gradiente de política (PG) e Q-learning. Nossas análises teóricas revelam que o ajuste fino supervisionado (SFT) pode introduzir soluções espúrias baseadas em co-ocorrência, enquanto o RL alcança o planejamento correto principalmente por meio de exploração, destacando o papel da exploração em permitir uma melhor generalização. No entanto, também mostramos que o PG sofre de colapso de diversidade, onde a diversidade de saída diminui durante o treinamento e persiste mesmo após a precisão perfeita ser atingida. Em contraste, o Q-learning oferece duas vantagens principais: aprendizado fora da política e preservação da diversidade na convergência. Demonstramos ainda que um projeto cuidadoso de recompensa é necessário para evitar o "hacking" de recompensa no Q-learning. Por fim, aplicando nossa estrutura ao benchmark de planejamento do mundo real Blocksworld, confirmamos que esses comportamentos se manifestam na prática.

English

Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.

Benefícios e Armadilhas do Aprendizado por Reforço para o Planejamento de Modelos de Linguagem: Uma Perspectiva Teórica

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Resumo

Support