ChatPaper.aiChatPaper

Interpretación de la Planificación Emergente en el Aprendizaje por Refuerzo sin Modelo

Interpreting Emergent Planning in Model-Free Reinforcement Learning

April 2, 2025
Autores: Thomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger
cs.AI

Resumen

Presentamos la primera evidencia mecanicista de que los agentes de aprendizaje por refuerzo sin modelo pueden aprender a planificar. Esto se logra aplicando una metodología basada en interpretabilidad conceptual a un agente sin modelo en Sokoban, un punto de referencia comúnmente utilizado para estudiar la planificación. Específicamente, demostramos que DRC, un agente sin modelo genérico introducido por Guez et al. (2019), utiliza representaciones de conceptos aprendidos para formular internamente planes que predicen los efectos a largo plazo de las acciones en el entorno e influyen en la selección de acciones. Nuestra metodología incluye: (1) sondear conceptos relevantes para la planificación, (2) investigar la formación de planes dentro de las representaciones del agente, y (3) verificar que los planes descubiertos (en las representaciones del agente) tienen un efecto causal en el comportamiento del agente mediante intervenciones. También mostramos que la aparición de estos planes coincide con la emergencia de una propiedad similar a la planificación: la capacidad de beneficiarse de un cómputo adicional durante las pruebas. Finalmente, realizamos un análisis cualitativo del algoritmo de planificación aprendido por el agente y descubrimos un fuerte parecido con la búsqueda bidireccional paralelizada. Nuestros hallazgos avanzan en la comprensión de los mecanismos internos que subyacen al comportamiento de planificación en los agentes, lo cual es importante dada la reciente tendencia de capacidades emergentes de planificación y razonamiento en los LLM a través del RL.
English
We present the first mechanistic evidence that model-free reinforcement learning agents can learn to plan. This is achieved by applying a methodology based on concept-based interpretability to a model-free agent in Sokoban -- a commonly used benchmark for studying planning. Specifically, we demonstrate that DRC, a generic model-free agent introduced by Guez et al. (2019), uses learned concept representations to internally formulate plans that both predict the long-term effects of actions on the environment and influence action selection. Our methodology involves: (1) probing for planning-relevant concepts, (2) investigating plan formation within the agent's representations, and (3) verifying that discovered plans (in the agent's representations) have a causal effect on the agent's behavior through interventions. We also show that the emergence of these plans coincides with the emergence of a planning-like property: the ability to benefit from additional test-time compute. Finally, we perform a qualitative analysis of the planning algorithm learned by the agent and discover a strong resemblance to parallelized bidirectional search. Our findings advance understanding of the internal mechanisms underlying planning behavior in agents, which is important given the recent trend of emergent planning and reasoning capabilities in LLMs through RL

Summary

AI-Generated Summary

PDF122April 4, 2025