ChatPaper.aiChatPaper

Dyna-Mind : Apprendre à simuler à partir de l'expérience pour des agents d'IA plus performants

Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

October 10, 2025
papers.authors: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI

papers.abstract

Les modèles de raisonnement ont récemment montré des progrès remarquables dans des domaines tels que les mathématiques et la programmation. Cependant, leurs capacités de niveau expert en mathématiques et en programmation contrastent fortement avec leurs performances dans des tâches interactives à long terme, telles que la navigation sur le web et l'utilisation d'ordinateurs ou de téléphones. Inspirés par la littérature sur la cognition humaine, nous soutenons que les agents d'intelligence artificielle actuels ont besoin d'« essais et erreurs vicariants » - la capacité de simuler mentalement des futurs alternatifs avant d'agir - afin d'améliorer leur compréhension et leurs performances dans des environnements interactifs complexes. Nous présentons Dyna-Mind, un cadre de formation en deux étapes qui enseigne explicitement aux agents (V)LM à intégrer une telle simulation dans leur raisonnement. Dans la première étape, nous introduisons le Raisonnement avec Simulations (ReSim), qui forme l'agent à générer des traces de raisonnement structurées à partir d'arbres de recherche élargis construits à partir d'expériences réelles recueillies lors d'interactions avec l'environnement. ReSim ancre ainsi le raisonnement de l'agent dans des dynamiques du monde fidèles et l'équipe de la capacité d'anticiper les états futurs dans son raisonnement. Dans la deuxième étape, nous proposons Dyna-GRPO, une méthode d'apprentissage par renforcement en ligne pour renforcer davantage la capacité de simulation et de prise de décision de l'agent en utilisant à la fois les récompenses finales et les états intermédiaires comme feedback provenant de déploiements réels. Des expériences sur deux benchmarks synthétiques (Sokoban et ALFWorld) et un benchmark réaliste (AndroidWorld) démontrent que (1) ReSim infuse efficacement la capacité de simulation dans les agents d'IA, et (2) Dyna-GRPO exploite les signaux au niveau des résultats et des interactions pour apprendre de meilleures politiques pour des tâches à long terme et nécessitant une planification intensive. Ensemble, ces résultats mettent en évidence le rôle central de la simulation pour permettre aux agents d'IA de raisonner, planifier et agir plus efficacement dans des environnements de plus en plus complexes.
English
Reasoning models have recently shown remarkable progress in domains such as math and coding. However, their expert-level abilities in math and coding contrast sharply with their performance in long-horizon, interactive tasks such as web navigation and computer/phone-use. Inspired by literature on human cognition, we argue that current AI agents need ''vicarious trial and error'' - the capacity to mentally simulate alternative futures before acting - in order to enhance their understanding and performance in complex interactive environments. We introduce Dyna-Mind, a two-stage training framework that explicitly teaches (V)LM agents to integrate such simulation into their reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which trains the agent to generate structured reasoning traces from expanded search trees built from real experience gathered through environment interactions. ReSim thus grounds the agent's reasoning in faithful world dynamics and equips it with the ability to anticipate future states in its reasoning. In stage 2, we propose Dyna-GRPO, an online reinforcement learning method to further strengthen the agent's simulation and decision-making ability by using both outcome rewards and intermediate states as feedback from real rollouts. Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome and interaction-level signals to learn better policies for long-horizon, planning-intensive tasks. Together, these results highlight the central role of simulation in enabling AI agents to reason, plan, and act more effectively in the ever more challenging environments.
PDF62October 13, 2025