Beneficios y Desafíos del Aprendizaje por Refuerzo en la Planificación de Modelos de Lenguaje: Una Perspectiva Teórica
Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
September 26, 2025
Autores: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen
cs.AI
Resumen
Los métodos recientes de aprendizaje por refuerzo (RL, por sus siglas en inglés) han mejorado sustancialmente las capacidades de planificación de los Modelos de Lenguaje a Gran Escala (LLMs), aunque la base teórica de su efectividad sigue siendo esquiva. En este trabajo, investigamos los beneficios y limitaciones del RL a través de una abstracción basada en grafos manejable, centrándonos en los métodos de gradiente de política (PG) y Q-learning. Nuestros análisis teóricos revelan que el ajuste fino supervisado (SFT) puede introducir soluciones espurias basadas en co-ocurrencias, mientras que el RL logra una planificación correcta principalmente a través de la exploración, destacando el papel de la exploración para permitir una mejor generalización. Sin embargo, también mostramos que el PG sufre de colapso de diversidad, donde la diversidad de salidas disminuye durante el entrenamiento y persiste incluso después de alcanzar una precisión perfecta. Por el contrario, el Q-learning ofrece dos ventajas clave: aprendizaje fuera de política y preservación de la diversidad en la convergencia. Además, demostramos que es necesario un diseño cuidadoso de las recompensas para evitar el "hackeo de recompensas" en el Q-learning. Finalmente, al aplicar nuestro marco al benchmark de planificación del mundo real Blocksworld, confirmamos que estos comportamientos se manifiestan en la práctica.
English
Recent reinforcement learning (RL) methods have substantially enhanced the
planning capabilities of Large Language Models (LLMs), yet the theoretical
basis for their effectiveness remains elusive. In this work, we investigate
RL's benefits and limitations through a tractable graph-based abstraction,
focusing on policy gradient (PG) and Q-learning methods. Our theoretical
analyses reveal that supervised fine-tuning (SFT) may introduce
co-occurrence-based spurious solutions, whereas RL achieves correct planning
primarily through exploration, underscoring exploration's role in enabling
better generalization. However, we also show that PG suffers from diversity
collapse, where output diversity decreases during training and persists even
after perfect accuracy is attained. By contrast, Q-learning provides two key
advantages: off-policy learning and diversity preservation at convergence. We
further demonstrate that careful reward design is necessary to prevent reward
hacking in Q-learning. Finally, applying our framework to the real-world
planning benchmark Blocksworld, we confirm that these behaviors manifest in
practice.