Dyna-Mind: Обучение симуляции на основе опыта для создания более эффективных ИИ-агентов
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
October 10, 2025
Авторы: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI
Аннотация
Модели рассуждений в последнее время продемонстрировали значительный прогресс в таких областях, как математика и программирование. Однако их экспертные способности в этих областях резко контрастируют с их производительностью в долгосрочных интерактивных задачах, таких как навигация в интернете и использование компьютера/телефона. Вдохновленные исследованиями в области человеческого познания, мы утверждаем, что современным ИИ-агентам необходима способность к «викарным пробам и ошибкам» — умению мысленно моделировать альтернативные варианты будущего перед действием — для улучшения их понимания и производительности в сложных интерактивных средах. Мы представляем Dyna-Mind, двухэтапную обучающую структуру, которая явно обучает агентов (V)LM интегрировать такое моделирование в свои рассуждения. На первом этапе мы вводим Reasoning with Simulations (ReSim), который обучает агента генерировать структурированные траектории рассуждений на основе расширенных деревьев поиска, построенных из реального опыта, собранного в ходе взаимодействия со средой. ReSim таким образом закрепляет рассуждения агента в достоверной динамике мира и наделяет его способностью предвидеть будущие состояния в своих рассуждениях. На втором этапе мы предлагаем Dyna-GRPO, метод онлайн-обучения с подкреплением, который дополнительно укрепляет способность агента к моделированию и принятию решений, используя как награды за результат, так и промежуточные состояния в качестве обратной связи из реальных прогонов. Эксперименты на двух синтетических тестовых наборах (Sokoban и ALFWorld) и одном реалистичном наборе (AndroidWorld) демонстрируют, что (1) ReSim эффективно внедряет способность к моделированию в ИИ-агентов, и (2) Dyna-GRPO использует сигналы на уровне результатов и взаимодействий для обучения более эффективным стратегиям в долгосрочных задачах, требующих планирования. Вместе эти результаты подчеркивают ключевую роль моделирования в том, чтобы ИИ-агенты могли рассуждать, планировать и действовать более эффективно в условиях все более сложных сред.
English
Reasoning models have recently shown remarkable progress in domains such as
math and coding. However, their expert-level abilities in math and coding
contrast sharply with their performance in long-horizon, interactive tasks such
as web navigation and computer/phone-use. Inspired by literature on human
cognition, we argue that current AI agents need ''vicarious trial and error'' -
the capacity to mentally simulate alternative futures before acting - in order
to enhance their understanding and performance in complex interactive
environments. We introduce Dyna-Mind, a two-stage training framework that
explicitly teaches (V)LM agents to integrate such simulation into their
reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which
trains the agent to generate structured reasoning traces from expanded search
trees built from real experience gathered through environment interactions.
ReSim thus grounds the agent's reasoning in faithful world dynamics and equips
it with the ability to anticipate future states in its reasoning. In stage 2,
we propose Dyna-GRPO, an online reinforcement learning method to further
strengthen the agent's simulation and decision-making ability by using both
outcome rewards and intermediate states as feedback from real rollouts.
Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one
realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively
infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome
and interaction-level signals to learn better policies for long-horizon,
planning-intensive tasks. Together, these results highlight the central role of
simulation in enabling AI agents to reason, plan, and act more effectively in
the ever more challenging environments.