Beneficios y Desafíos del Aprendizaje por Refuerzo en la Planificación de Modelos de Lenguaje: Una Perspectiva Teórica

Resumen

Los métodos recientes de aprendizaje por refuerzo (RL, por sus siglas en inglés) han mejorado sustancialmente las capacidades de planificación de los Modelos de Lenguaje a Gran Escala (LLMs), aunque la base teórica de su efectividad sigue siendo esquiva. En este trabajo, investigamos los beneficios y limitaciones del RL a través de una abstracción basada en grafos manejable, centrándonos en los métodos de gradiente de política (PG) y Q-learning. Nuestros análisis teóricos revelan que el ajuste fino supervisado (SFT) puede introducir soluciones espurias basadas en co-ocurrencias, mientras que el RL logra una planificación correcta principalmente a través de la exploración, destacando el papel de la exploración para permitir una mejor generalización. Sin embargo, también mostramos que el PG sufre de colapso de diversidad, donde la diversidad de salidas disminuye durante el entrenamiento y persiste incluso después de alcanzar una precisión perfecta. Por el contrario, el Q-learning ofrece dos ventajas clave: aprendizaje fuera de política y preservación de la diversidad en la convergencia. Además, demostramos que es necesario un diseño cuidadoso de las recompensas para evitar el "hackeo de recompensas" en el Q-learning. Finalmente, al aplicar nuestro marco al benchmark de planificación del mundo real Blocksworld, confirmamos que estos comportamientos se manifiestan en la práctica.

English

Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.

Beneficios y Desafíos del Aprendizaje por Refuerzo en la Planificación de Modelos de Lenguaje: Una Perspectiva Teórica

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Resumen

Support