ChatPaper.aiChatPaper

Dyna-Mind: Lernen, aus Erfahrung zu simulieren für bessere KI-Agenten

Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

October 10, 2025
papers.authors: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI

papers.abstract

Reasoning-Modelle haben in letzter Zeit bemerkenswerte Fortschritte in Bereichen wie Mathematik und Programmierung gezeigt. Ihre Expertenfähigkeiten in Mathematik und Programmierung stehen jedoch in starkem Kontrast zu ihrer Leistung bei langfristigen, interaktiven Aufgaben wie Webnavigation und der Nutzung von Computern/Telefonen. Inspiriert durch die Literatur zur menschlichen Kognition argumentieren wir, dass aktuelle KI-Agenten „vicarious trial and error“ – die Fähigkeit, alternative Zukünfte mental zu simulieren, bevor sie handeln – benötigen, um ihr Verständnis und ihre Leistung in komplexen interaktiven Umgebungen zu verbessern. Wir stellen Dyna-Mind vor, ein zweistufiges Trainingsframework, das (V)LM-Agenten explizit beibringt, solche Simulationen in ihr Denken zu integrieren. In Stufe 1 führen wir Reasoning with Simulations (ReSim) ein, das den Agenten trainiert, strukturierte Denkpfade aus erweiterten Suchbäumen zu generieren, die auf realen Erfahrungen basieren, die durch Interaktionen mit der Umgebung gesammelt wurden. ReSim verankert somit das Denken des Agenten in treuen Weltdynamiken und stattet ihn mit der Fähigkeit aus, zukünftige Zustände in seinem Denken vorherzusehen. In Stufe 2 schlagen wir Dyna-GRPO vor, eine Online-Reinforcement-Learning-Methode, die die Simulations- und Entscheidungsfähigkeit des Agenten weiter stärkt, indem sowohl Ergebnisbelohnungen als auch Zwischenzustände als Feedback aus realen Rollouts verwendet werden. Experimente an zwei synthetischen Benchmarks (Sokoban und ALFWorld) und einem realistischen Benchmark (AndroidWorld) zeigen, dass (1) ReSim die Simulationsfähigkeit effektiv in KI-Agenten einflößt und (2) Dyna-GRPO Ergebnis- und Interaktionssignale nutzt, um bessere Strategien für langfristige, planungsintensive Aufgaben zu erlernen. Zusammen unterstreichen diese Ergebnisse die zentrale Rolle der Simulation, um KI-Agenten zu befähigen, in zunehmend herausfordernden Umgebungen effektiver zu denken, zu planen und zu handeln.
English
Reasoning models have recently shown remarkable progress in domains such as math and coding. However, their expert-level abilities in math and coding contrast sharply with their performance in long-horizon, interactive tasks such as web navigation and computer/phone-use. Inspired by literature on human cognition, we argue that current AI agents need ''vicarious trial and error'' - the capacity to mentally simulate alternative futures before acting - in order to enhance their understanding and performance in complex interactive environments. We introduce Dyna-Mind, a two-stage training framework that explicitly teaches (V)LM agents to integrate such simulation into their reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which trains the agent to generate structured reasoning traces from expanded search trees built from real experience gathered through environment interactions. ReSim thus grounds the agent's reasoning in faithful world dynamics and equips it with the ability to anticipate future states in its reasoning. In stage 2, we propose Dyna-GRPO, an online reinforcement learning method to further strengthen the agent's simulation and decision-making ability by using both outcome rewards and intermediate states as feedback from real rollouts. Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome and interaction-level signals to learn better policies for long-horizon, planning-intensive tasks. Together, these results highlight the central role of simulation in enabling AI agents to reason, plan, and act more effectively in the ever more challenging environments.
PDF62October 13, 2025