Dyna-Mind: Aprendendo a Simular a partir da Experiência para Melhores Agentes de IA
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
October 10, 2025
Autores: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI
Resumo
Modelos de raciocínio têm mostrado progressos notáveis recentemente em domínios como matemática e programação. No entanto, suas habilidades de nível especialista em matemática e programação contrastam fortemente com seu desempenho em tarefas interativas de longo prazo, como navegação na web e uso de computadores/celulares. Inspirados pela literatura sobre cognição humana, argumentamos que os agentes de IA atuais precisam de "tentativa e erro vicário" - a capacidade de simular mentalmente futuros alternativos antes de agir - para aprimorar sua compreensão e desempenho em ambientes interativos complexos. Apresentamos o Dyna-Mind, uma estrutura de treinamento em duas etapas que ensina explicitamente agentes (V)LM a integrar tal simulação em seu raciocínio. Na etapa 1, introduzimos o Raciocínio com Simulações (ReSim), que treina o agente para gerar traços de raciocínio estruturados a partir de árvores de busca expandidas construídas com experiências reais coletadas por meio de interações com o ambiente. O ReSim, portanto, fundamenta o raciocínio do agente em dinâmicas mundiais fiéis e o capacita a antecipar estados futuros em seu raciocínio. Na etapa 2, propomos o Dyna-GRPO, um método de aprendizado por reforço online para fortalecer ainda mais a capacidade de simulação e tomada de decisão do agente, utilizando tanto recompensas de resultado quanto estados intermediários como feedback de execuções reais. Experimentos em dois benchmarks sintéticos (Sokoban e ALFWorld) e um benchmark realista (AndroidWorld) demonstram que (1) o ReSim infunde efetivamente a capacidade de simulação em agentes de IA, e (2) o Dyna-GRPO aproveita sinais de resultado e nível de interação para aprender políticas melhores para tarefas de longo prazo e intensivas em planejamento. Juntos, esses resultados destacam o papel central da simulação em permitir que agentes de IA raciocinem, planejem e ajam de forma mais eficaz em ambientes cada vez mais desafiadores.
English
Reasoning models have recently shown remarkable progress in domains such as
math and coding. However, their expert-level abilities in math and coding
contrast sharply with their performance in long-horizon, interactive tasks such
as web navigation and computer/phone-use. Inspired by literature on human
cognition, we argue that current AI agents need ''vicarious trial and error'' -
the capacity to mentally simulate alternative futures before acting - in order
to enhance their understanding and performance in complex interactive
environments. We introduce Dyna-Mind, a two-stage training framework that
explicitly teaches (V)LM agents to integrate such simulation into their
reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which
trains the agent to generate structured reasoning traces from expanded search
trees built from real experience gathered through environment interactions.
ReSim thus grounds the agent's reasoning in faithful world dynamics and equips
it with the ability to anticipate future states in its reasoning. In stage 2,
we propose Dyna-GRPO, an online reinforcement learning method to further
strengthen the agent's simulation and decision-making ability by using both
outcome rewards and intermediate states as feedback from real rollouts.
Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one
realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively
infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome
and interaction-level signals to learn better policies for long-horizon,
planning-intensive tasks. Together, these results highlight the central role of
simulation in enabling AI agents to reason, plan, and act more effectively in
the ever more challenging environments.