RIG: Sinergizando Raciocínio e Imaginação em Políticas Generalistas de Ponta a Ponta
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy
March 31, 2025
Autores: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
cs.AI
Resumo
Raciocinar antes de agir e imaginar resultados potenciais (ou seja, modelos de mundo) são essenciais para agentes corporificados que operam em ambientes complexos e de mundo aberto. No entanto, trabalhos anteriores incorporam apenas uma dessas habilidades em um agente de ponta a ponta ou integram múltiplos modelos especializados em um sistema de agente, limitando a eficiência de aprendizado e a generalização da política. Assim, este artigo faz a primeira tentativa de sinergizar Raciocínio e Imaginação em uma política Generalista de ponta a ponta, denominada RIG. Para treinar o RIG de maneira ponta a ponta, construímos um pipeline de dados que integra e enriquece progressivamente o conteúdo da imaginação e do raciocínio nas trajetórias coletadas de agentes existentes. O aprendizado conjunto de raciocínio e geração da próxima imagem modela explicitamente a correlação inerente entre raciocínio, ação e dinâmica dos ambientes, exibindo assim uma melhoria de mais de 17 vezes na eficiência de amostragem e na generalização em comparação com trabalhos anteriores. Durante a inferência, o RIG primeiro raciocina sobre a próxima ação, gera uma ação potencial e, em seguida, prevê os resultados da ação, o que oferece ao agente a oportunidade de revisar e autocorrigir-se com base na imaginação antes de realizar ações reais. Resultados experimentais mostram que a sinergia entre raciocínio e imaginação não apenas melhora a robustez, generalização e interoperabilidade da política generalista, mas também permite o escalonamento em tempo de teste para aprimorar o desempenho geral.
English
Reasoning before action and imagining potential outcomes (i.e., world models)
are essential for embodied agents operating in complex open-world environments.
Yet, prior work either incorporates only one of these abilities in an
end-to-end agent or integrates multiple specialized models into an agent
system, limiting the learning efficiency and generalization of the policy.
Thus, this paper makes the first attempt to synergize Reasoning and Imagination
in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end
manner, we construct a data pipeline that progressively integrates and enriches
the content of imagination and reasoning in the trajectories collected from
existing agents. The joint learning of reasoning and next image generation
explicitly models the inherent correlation between reasoning, action, and
dynamics of environments, and thus exhibits more than 17times sample
efficiency improvements and generalization in comparison with previous works.
During inference, RIG first reasons about the next action, produces potential
action, and then predicts the action outcomes, which offers the agent a chance
to review and self-correct based on the imagination before taking real actions.
Experimental results show that the synergy of reasoning and imagination not
only improves the robustness, generalization, and interoperability of
generalist policy but also enables test-time scaling to enhance overall
performance.Summary
AI-Generated Summary