Dyna-Mind: Aprendiendo a Simular a partir de la Experiencia para Mejorar los Agentes de IA
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
October 10, 2025
Autores: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI
Resumen
Los modelos de razonamiento han mostrado recientemente avances notables en dominios como las matemáticas y la programación. Sin embargo, sus habilidades de nivel experto en matemáticas y programación contrastan marcadamente con su desempeño en tareas interactivas de largo plazo, como la navegación web y el uso de computadoras o teléfonos. Inspirados por la literatura sobre cognición humana, argumentamos que los agentes de IA actuales necesitan "ensayo y error vicario" —la capacidad de simular mentalmente futuros alternativos antes de actuar— para mejorar su comprensión y desempeño en entornos interactivos complejos. Presentamos Dyna-Mind, un marco de entrenamiento de dos etapas que enseña explícitamente a los agentes (V)LM a integrar dicha simulación en su razonamiento. En la etapa 1, introducimos Razonamiento con Simulaciones (ReSim), que entrena al agente para generar trazas de razonamiento estructuradas a partir de árboles de búsqueda expandidos construidos con experiencias reales recopiladas a través de interacciones con el entorno. ReSim, por tanto, fundamenta el razonamiento del agente en dinámicas fieles del mundo y lo dota de la capacidad de anticipar estados futuros en su razonamiento. En la etapa 2, proponemos Dyna-GRPO, un método de aprendizaje por refuerzo en línea para fortalecer aún más la capacidad de simulación y toma de decisiones del agente utilizando tanto recompensas de resultados como estados intermedios como retroalimentación de ejecuciones reales. Los experimentos en dos puntos de referencia sintéticos (Sokoban y ALFWorld) y uno realista (AndroidWorld) demuestran que (1) ReSim infunde efectivamente la capacidad de simulación en los agentes de IA, y (2) Dyna-GRPO aprovecha las señales de resultados y nivel de interacción para aprender políticas más efectivas para tareas de largo plazo que requieren planificación intensiva. En conjunto, estos resultados destacan el papel central de la simulación para permitir que los agentes de IA razonen, planifiquen y actúen de manera más efectiva en entornos cada vez más desafiantes.
English
Reasoning models have recently shown remarkable progress in domains such as
math and coding. However, their expert-level abilities in math and coding
contrast sharply with their performance in long-horizon, interactive tasks such
as web navigation and computer/phone-use. Inspired by literature on human
cognition, we argue that current AI agents need ''vicarious trial and error'' -
the capacity to mentally simulate alternative futures before acting - in order
to enhance their understanding and performance in complex interactive
environments. We introduce Dyna-Mind, a two-stage training framework that
explicitly teaches (V)LM agents to integrate such simulation into their
reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which
trains the agent to generate structured reasoning traces from expanded search
trees built from real experience gathered through environment interactions.
ReSim thus grounds the agent's reasoning in faithful world dynamics and equips
it with the ability to anticipate future states in its reasoning. In stage 2,
we propose Dyna-GRPO, an online reinforcement learning method to further
strengthen the agent's simulation and decision-making ability by using both
outcome rewards and intermediate states as feedback from real rollouts.
Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one
realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively
infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome
and interaction-level signals to learn better policies for long-horizon,
planning-intensive tasks. Together, these results highlight the central role of
simulation in enabling AI agents to reason, plan, and act more effectively in
the ever more challenging environments.