RIG: Sinergizando Razonamiento e Imaginación en Políticas Generalistas de Extremo a Extremo
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy
March 31, 2025
Autores: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
cs.AI
Resumen
El razonamiento antes de la acción y la imaginación de resultados potenciales (es decir, modelos del mundo) son esenciales para agentes corporizados que operan en entornos complejos y abiertos. Sin embargo, trabajos previos incorporan solo una de estas capacidades en un agente de extremo a extremo o integran múltiples modelos especializados en un sistema de agentes, lo que limita la eficiencia de aprendizaje y la generalización de la política. Por lo tanto, este artículo realiza el primer intento de sinergizar el Razonamiento y la Imaginación en una política Generalista de extremo a extremo, denominada RIG. Para entrenar RIG de manera integral, construimos una canalización de datos que integra y enriquece progresivamente el contenido de la imaginación y el razonamiento en las trayectorias recopiladas de agentes existentes. El aprendizaje conjunto del razonamiento y la generación de la siguiente imagen modela explícitamente la correlación inherente entre el razonamiento, la acción y la dinámica de los entornos, lo que resulta en mejoras de más de 17 veces en la eficiencia de muestreo y la generalización en comparación con trabajos anteriores. Durante la inferencia, RIG primero razona sobre la siguiente acción, genera acciones potenciales y luego predice los resultados de las acciones, lo que ofrece al agente la oportunidad de revisar y autocorregirse basándose en la imaginación antes de realizar acciones reales. Los resultados experimentales muestran que la sinergia entre el razonamiento y la imaginación no solo mejora la robustez, generalización e interoperabilidad de la política generalista, sino que también permite la escalabilidad en tiempo de prueba para mejorar el rendimiento general.
English
Reasoning before action and imagining potential outcomes (i.e., world models)
are essential for embodied agents operating in complex open-world environments.
Yet, prior work either incorporates only one of these abilities in an
end-to-end agent or integrates multiple specialized models into an agent
system, limiting the learning efficiency and generalization of the policy.
Thus, this paper makes the first attempt to synergize Reasoning and Imagination
in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end
manner, we construct a data pipeline that progressively integrates and enriches
the content of imagination and reasoning in the trajectories collected from
existing agents. The joint learning of reasoning and next image generation
explicitly models the inherent correlation between reasoning, action, and
dynamics of environments, and thus exhibits more than 17times sample
efficiency improvements and generalization in comparison with previous works.
During inference, RIG first reasons about the next action, produces potential
action, and then predicts the action outcomes, which offers the agent a chance
to review and self-correct based on the imagination before taking real actions.
Experimental results show that the synergy of reasoning and imagination not
only improves the robustness, generalization, and interoperability of
generalist policy but also enables test-time scaling to enhance overall
performance.Summary
AI-Generated Summary