Dyna-Mind: Apprendere a simulare dall'esperienza per agenti AI migliori
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
October 10, 2025
Autori: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI
Abstract
I modelli di ragionamento hanno recentemente mostrato progressi significativi in domini come la matematica e la programmazione. Tuttavia, le loro abilità di livello esperto in matematica e programmazione contrastano nettamente con le loro prestazioni in compiti interattivi a lungo termine come la navigazione web e l'uso di computer/telefoni. Ispirati dalla letteratura sulla cognizione umana, sosteniamo che gli attuali agenti di intelligenza artificiale necessitano di "prove ed errori vicari" - la capacità di simulare mentalmente futuri alternativi prima di agire - per migliorare la loro comprensione e prestazioni in ambienti interattivi complessi. Introduciamo Dyna-Mind, un framework di addestramento in due fasi che insegna esplicitamente agli agenti (V)LM a integrare tale simulazione nel loro ragionamento. Nella fase 1, introduciamo il Ragionamento con Simulazioni (ReSim), che addestra l'agente a generare tracce di ragionamento strutturate da alberi di ricerca ampliati costruiti da esperienze reali raccolte attraverso interazioni con l'ambiente. ReSim quindi ancorail ragionamento dell'agente a dinamiche mondiali fedeli e lo equipaggia con la capacità di anticipare stati futuri nel suo ragionamento. Nella fase 2, proponiamo Dyna-GRPO, un metodo di apprendimento per rinforzo online per rafforzare ulteriormente la capacità di simulazione e decisione dell'agente utilizzando sia ricompense finali che stati intermedi come feedback da esecuzioni reali. Esperimenti su due benchmark sintetici (Sokoban e ALFWorld) e un benchmark realistico (AndroidWorld) dimostrano che (1) ReSim infonde efficacemente la capacità di simulazione negli agenti di intelligenza artificiale, e (2) Dyna-GRPO sfrutta segnali a livello di risultato e interazione per apprendere politiche migliori per compiti a lungo termine e intensivi di pianificazione. Insieme, questi risultati evidenziano il ruolo centrale della simulazione nel consentire agli agenti di intelligenza artificiale di ragionare, pianificare e agire in modo più efficace in ambienti sempre più impegnativi.
English
Reasoning models have recently shown remarkable progress in domains such as
math and coding. However, their expert-level abilities in math and coding
contrast sharply with their performance in long-horizon, interactive tasks such
as web navigation and computer/phone-use. Inspired by literature on human
cognition, we argue that current AI agents need ''vicarious trial and error'' -
the capacity to mentally simulate alternative futures before acting - in order
to enhance their understanding and performance in complex interactive
environments. We introduce Dyna-Mind, a two-stage training framework that
explicitly teaches (V)LM agents to integrate such simulation into their
reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which
trains the agent to generate structured reasoning traces from expanded search
trees built from real experience gathered through environment interactions.
ReSim thus grounds the agent's reasoning in faithful world dynamics and equips
it with the ability to anticipate future states in its reasoning. In stage 2,
we propose Dyna-GRPO, an online reinforcement learning method to further
strengthen the agent's simulation and decision-making ability by using both
outcome rewards and intermediate states as feedback from real rollouts.
Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one
realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively
infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome
and interaction-level signals to learn better policies for long-horizon,
planning-intensive tasks. Together, these results highlight the central role of
simulation in enabling AI agents to reason, plan, and act more effectively in
the ever more challenging environments.