Dyna-Mind: Aprendiendo a Simular a partir de la Experiencia para Mejorar los Agentes de IA

Resumen

Los modelos de razonamiento han mostrado recientemente avances notables en dominios como las matemáticas y la programación. Sin embargo, sus habilidades de nivel experto en matemáticas y programación contrastan marcadamente con su desempeño en tareas interactivas de largo plazo, como la navegación web y el uso de computadoras o teléfonos. Inspirados por la literatura sobre cognición humana, argumentamos que los agentes de IA actuales necesitan "ensayo y error vicario" —la capacidad de simular mentalmente futuros alternativos antes de actuar— para mejorar su comprensión y desempeño en entornos interactivos complejos. Presentamos Dyna-Mind, un marco de entrenamiento de dos etapas que enseña explícitamente a los agentes (V)LM a integrar dicha simulación en su razonamiento. En la etapa 1, introducimos Razonamiento con Simulaciones (ReSim), que entrena al agente para generar trazas de razonamiento estructuradas a partir de árboles de búsqueda expandidos construidos con experiencias reales recopiladas a través de interacciones con el entorno. ReSim, por tanto, fundamenta el razonamiento del agente en dinámicas fieles del mundo y lo dota de la capacidad de anticipar estados futuros en su razonamiento. En la etapa 2, proponemos Dyna-GRPO, un método de aprendizaje por refuerzo en línea para fortalecer aún más la capacidad de simulación y toma de decisiones del agente utilizando tanto recompensas de resultados como estados intermedios como retroalimentación de ejecuciones reales. Los experimentos en dos puntos de referencia sintéticos (Sokoban y ALFWorld) y uno realista (AndroidWorld) demuestran que (1) ReSim infunde efectivamente la capacidad de simulación en los agentes de IA, y (2) Dyna-GRPO aprovecha las señales de resultados y nivel de interacción para aprender políticas más efectivas para tareas de largo plazo que requieren planificación intensiva. En conjunto, estos resultados destacan el papel central de la simulación para permitir que los agentes de IA razonen, planifiquen y actúen de manera más efectiva en entornos cada vez más desafiantes.

English

Reasoning models have recently shown remarkable progress in domains such as math and coding. However, their expert-level abilities in math and coding contrast sharply with their performance in long-horizon, interactive tasks such as web navigation and computer/phone-use. Inspired by literature on human cognition, we argue that current AI agents need ''vicarious trial and error'' - the capacity to mentally simulate alternative futures before acting - in order to enhance their understanding and performance in complex interactive environments. We introduce Dyna-Mind, a two-stage training framework that explicitly teaches (V)LM agents to integrate such simulation into their reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which trains the agent to generate structured reasoning traces from expanded search trees built from real experience gathered through environment interactions. ReSim thus grounds the agent's reasoning in faithful world dynamics and equips it with the ability to anticipate future states in its reasoning. In stage 2, we propose Dyna-GRPO, an online reinforcement learning method to further strengthen the agent's simulation and decision-making ability by using both outcome rewards and intermediate states as feedback from real rollouts. Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome and interaction-level signals to learn better policies for long-horizon, planning-intensive tasks. Together, these results highlight the central role of simulation in enabling AI agents to reason, plan, and act more effectively in the ever more challenging environments.