Dyna-Mind: Leren simuleren vanuit ervaring voor betere AI-agenten
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
October 10, 2025
Auteurs: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI
Samenvatting
Redeneermodellen hebben recentelijk opmerkelijke vooruitgang geboekt in domeinen zoals wiskunde en programmeren. Hun expertniveau in wiskunde en programmeren staat echter in schril contrast met hun prestaties in langetermijn, interactieve taken zoals webnavigatie en computer/telefoongebruik. Geïnspireerd door literatuur over menselijke cognitie, stellen wij dat huidige AI-agenten ''vicarious trial and error'' nodig hebben - het vermogen om mentaal alternatieve toekomsten te simuleren voordat ze handelen - om hun begrip en prestaties in complexe interactieve omgevingen te verbeteren. We introduceren Dyna-Mind, een tweefasen trainingsframework dat (V)LM-agenten expliciet leert om dergelijke simulatie in hun redenering te integreren. In fase 1 introduceren we Reasoning with Simulations (ReSim), dat de agent traint om gestructureerde redeneersporen te genereren uit uitgebreide zoekbomen die zijn opgebouwd uit echte ervaringen verzameld door interacties met de omgeving. ReSim verankert zo de redenering van de agent in betrouwbare werelddynamiek en stelt hem in staat om toekomstige staten in zijn redenering te anticiperen. In fase 2 stellen we Dyna-GRPO voor, een online reinforcement learning-methode om het simulatie- en besluitvormingsvermogen van de agent verder te versterken door zowel uitkomstbeloningen als tussenliggende staten als feedback te gebruiken van echte rollouts. Experimenten op twee synthetische benchmarks (Sokoban en ALFWorld) en één realistische benchmark (AndroidWorld) tonen aan dat (1) ReSim effectief simulatievermogen in AI-agenten infuseert, en (2) Dyna-GRPO uitkomst- en interactieniveau-signalen benut om betere beleidsregels te leren voor langetermijn, planningsintensieve taken. Samen benadrukken deze resultaten de centrale rol van simulatie bij het in staat stellen van AI-agenten om effectiever te redeneren, plannen en handelen in steeds uitdagendere omgevingen.
English
Reasoning models have recently shown remarkable progress in domains such as
math and coding. However, their expert-level abilities in math and coding
contrast sharply with their performance in long-horizon, interactive tasks such
as web navigation and computer/phone-use. Inspired by literature on human
cognition, we argue that current AI agents need ''vicarious trial and error'' -
the capacity to mentally simulate alternative futures before acting - in order
to enhance their understanding and performance in complex interactive
environments. We introduce Dyna-Mind, a two-stage training framework that
explicitly teaches (V)LM agents to integrate such simulation into their
reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which
trains the agent to generate structured reasoning traces from expanded search
trees built from real experience gathered through environment interactions.
ReSim thus grounds the agent's reasoning in faithful world dynamics and equips
it with the ability to anticipate future states in its reasoning. In stage 2,
we propose Dyna-GRPO, an online reinforcement learning method to further
strengthen the agent's simulation and decision-making ability by using both
outcome rewards and intermediate states as feedback from real rollouts.
Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one
realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively
infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome
and interaction-level signals to learn better policies for long-horizon,
planning-intensive tasks. Together, these results highlight the central role of
simulation in enabling AI agents to reason, plan, and act more effectively in
the ever more challenging environments.