Dyna-Mind: 더 나은 AI 에이전트를 위한 경험 기반 시뮬레이션 학습
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
October 10, 2025
저자: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI
초록
추론 모델들은 최근 수학 및 코딩과 같은 분야에서 놀라운 진전을 보여왔습니다. 그러나 수학과 코딩에서의 전문가 수준 능력은 웹 탐색 및 컴퓨터/휴대폰 사용과 같은 장기적이고 상호작용적인 작업에서의 성능과는 극명한 대조를 이룹니다. 인간 인지에 관한 문헌에서 영감을 받아, 우리는 현재의 AI 에이전트들이 복잡한 상호작용 환경에서의 이해와 성능을 향상시키기 위해 '대리적 시행착오(vicarious trial and error)' - 행동하기 전에 대안적인 미래를 정신적으로 시뮬레이션하는 능력 - 가 필요하다고 주장합니다. 우리는 이러한 시뮬레이션을 추론에 통합하도록 (V)LM 에이전트를 명시적으로 가르치는 두 단계의 훈련 프레임워크인 Dyna-Mind를 소개합니다. 첫 번째 단계에서는, 환경 상호작을 통해 수집된 실제 경험으로부터 구축된 확장된 탐색 트리에서 구조화된 추론 흔적을 생성하도록 에이전트를 훈련시키는 Reasoning with Simulations (ReSim)을 도입합니다. ReSim은 에이전트의 추론을 신뢰할 수 있는 세계 역학에 기반을 두고, 추론에서 미래 상태를 예측할 수 있는 능력을 갖추도록 합니다. 두 번째 단계에서는, 실제 롤아웃에서의 결과 보상과 중간 상태를 피드백으로 사용하여 에이전트의 시뮬레이션 및 의사결정 능력을 더욱 강화하는 온라인 강화 학습 방법인 Dyna-GRPO를 제안합니다. 두 개의 합성 벤치마크(Sokoban 및 ALFWorld)와 하나의 현실적 벤치마크(AndroidWorld)에서의 실험은 (1) ReSim이 AI 에이전트에 시뮬레이션 능력을 효과적으로 주입하고, (2) Dyna-GRPO가 결과 및 상호작용 수준의 신호를 활용하여 장기적이고 계획 집약적인 작업에 대한 더 나은 정책을 학습한다는 것을 보여줍니다. 이러한 결과들은 점점 더 도전적인 환경에서 AI 에이전트가 더 효과적으로 추론, 계획 및 행동할 수 있도록 하는 데 시뮬레이션의 중심적인 역할을 강조합니다.
English
Reasoning models have recently shown remarkable progress in domains such as
math and coding. However, their expert-level abilities in math and coding
contrast sharply with their performance in long-horizon, interactive tasks such
as web navigation and computer/phone-use. Inspired by literature on human
cognition, we argue that current AI agents need ''vicarious trial and error'' -
the capacity to mentally simulate alternative futures before acting - in order
to enhance their understanding and performance in complex interactive
environments. We introduce Dyna-Mind, a two-stage training framework that
explicitly teaches (V)LM agents to integrate such simulation into their
reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which
trains the agent to generate structured reasoning traces from expanded search
trees built from real experience gathered through environment interactions.
ReSim thus grounds the agent's reasoning in faithful world dynamics and equips
it with the ability to anticipate future states in its reasoning. In stage 2,
we propose Dyna-GRPO, an online reinforcement learning method to further
strengthen the agent's simulation and decision-making ability by using both
outcome rewards and intermediate states as feedback from real rollouts.
Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one
realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively
infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome
and interaction-level signals to learn better policies for long-horizon,
planning-intensive tasks. Together, these results highlight the central role of
simulation in enabling AI agents to reason, plan, and act more effectively in
the ever more challenging environments.