Benefícios e Armadilhas do Aprendizado por Reforço para o Planejamento de Modelos de Linguagem: Uma Perspectiva Teórica
Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
September 26, 2025
Autores: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI
Resumo
Métodos recentes de aprendizado por reforço (RL) têm aprimorado substancialmente as capacidades de planejamento de Modelos de Linguagem de Grande Escala (LLMs), embora a base teórica para sua eficácia permaneça elusiva. Neste trabalho, investigamos os benefícios e limitações do RL por meio de uma abstração tratável baseada em grafos, focando nos métodos de gradiente de política (PG) e Q-learning. Nossas análises teóricas revelam que o ajuste fino supervisionado (SFT) pode introduzir soluções espúrias baseadas em co-ocorrência, enquanto o RL alcança o planejamento correto principalmente por meio de exploração, destacando o papel da exploração em permitir uma melhor generalização. No entanto, também mostramos que o PG sofre de colapso de diversidade, onde a diversidade de saída diminui durante o treinamento e persiste mesmo após a precisão perfeita ser atingida. Em contraste, o Q-learning oferece duas vantagens principais: aprendizado fora da política e preservação da diversidade na convergência. Demonstramos ainda que um projeto cuidadoso de recompensa é necessário para evitar o "hacking" de recompensa no Q-learning. Por fim, aplicando nossa estrutura ao benchmark de planejamento do mundo real Blocksworld, confirmamos que esses comportamentos se manifestam na prática.
English
Recent reinforcement learning (RL) methods have substantially enhanced the
planning capabilities of Large Language Models (LLMs), yet the theoretical
basis for their effectiveness remains elusive. In this work, we investigate
RL's benefits and limitations through a tractable graph-based abstraction,
focusing on policy gradient (PG) and Q-learning methods. Our theoretical
analyses reveal that supervised fine-tuning (SFT) may introduce
co-occurrence-based spurious solutions, whereas RL achieves correct planning
primarily through exploration, underscoring exploration's role in enabling
better generalization. However, we also show that PG suffers from diversity
collapse, where output diversity decreases during training and persists even
after perfect accuracy is attained. By contrast, Q-learning provides two key
advantages: off-policy learning and diversity preservation at convergence. We
further demonstrate that careful reward design is necessary to prevent reward
hacking in Q-learning. Finally, applying our framework to the real-world
planning benchmark Blocksworld, we confirm that these behaviors manifest in
practice.