ChatPaper.aiChatPaper

RIG : Synergie entre raisonnement et imagination dans une politique généraliste de bout en bout

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

March 31, 2025
Auteurs: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
cs.AI

Résumé

La raison avant l'action et l'imagination des résultats potentiels (c'est-à-dire, les modèles du monde) sont essentielles pour les agents incarnés opérant dans des environnements complexes et ouverts. Cependant, les travaux antérieurs intègrent soit seulement l'une de ces capacités dans un agent de bout en bout, soit combinent plusieurs modèles spécialisés dans un système d'agent, limitant ainsi l'efficacité d'apprentissage et la généralisation de la politique. Par conséquent, cet article fait une première tentative pour synergiser la Raison et l'Imagination dans une politique généraliste de bout en bout, appelée RIG. Pour entraîner RIG de manière end-to-end, nous construisons un pipeline de données qui intègre et enrichit progressivement le contenu de l'imagination et du raisonnement dans les trajectoires collectées à partir d'agents existants. L'apprentissage conjoint du raisonnement et de la génération d'images suivantes modélise explicitement la corrélation inhérente entre le raisonnement, l'action et la dynamique des environnements, et montre ainsi une amélioration de plus de 17 fois en termes d'efficacité d'échantillonnage et de généralisation par rapport aux travaux précédents. Pendant l'inférence, RIG raisonne d'abord sur la prochaine action, produit une action potentielle, puis prédit les résultats de l'action, offrant ainsi à l'agent une chance de revoir et de s'auto-corriger sur la base de l'imagination avant de prendre des actions réelles. Les résultats expérimentaux montrent que la synergie entre le raisonnement et l'imagination améliore non seulement la robustesse, la généralisation et l'interopérabilité de la politique généraliste, mais permet également une mise à l'échelle au moment du test pour améliorer les performances globales.
English
Reasoning before action and imagining potential outcomes (i.e., world models) are essential for embodied agents operating in complex open-world environments. Yet, prior work either incorporates only one of these abilities in an end-to-end agent or integrates multiple specialized models into an agent system, limiting the learning efficiency and generalization of the policy. Thus, this paper makes the first attempt to synergize Reasoning and Imagination in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end manner, we construct a data pipeline that progressively integrates and enriches the content of imagination and reasoning in the trajectories collected from existing agents. The joint learning of reasoning and next image generation explicitly models the inherent correlation between reasoning, action, and dynamics of environments, and thus exhibits more than 17times sample efficiency improvements and generalization in comparison with previous works. During inference, RIG first reasons about the next action, produces potential action, and then predicts the action outcomes, which offers the agent a chance to review and self-correct based on the imagination before taking real actions. Experimental results show that the synergy of reasoning and imagination not only improves the robustness, generalization, and interoperability of generalist policy but also enables test-time scaling to enhance overall performance.

Summary

AI-Generated Summary

PDF302April 1, 2025