RIG: Synergie tussen Redeneren en Verbeelding in End-to-End Algemene Beleidsvorming
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy
March 31, 2025
Auteurs: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
cs.AI
Samenvatting
Redeneren voor actie en het verbeelden van mogelijke uitkomsten (d.w.z. wereldmodellen) zijn essentieel voor belichaamde agenten die opereren in complexe open-wereldomgevingen. Eerdere werkzaamheden hebben echter slechts één van deze vaardigheden geïntegreerd in een end-to-end agent of meerdere gespecialiseerde modellen gecombineerd in een agentsysteem, wat de leer efficiëntie en generalisatie van het beleid beperkt. Daarom doet dit paper een eerste poging om Redeneren en Verbeelding te combineren in een end-to-end Generalist beleid, genaamd RIG. Om RIG op een end-to-end manier te trainen, construeren we een datapijplijn die de inhoud van verbeelding en redeneren geleidelijk integreert en verrijkt in de trajecten die zijn verzameld van bestaande agenten. Het gezamenlijk leren van redeneren en het genereren van de volgende afbeelding modelleert expliciet de inherente correlatie tussen redeneren, actie en de dynamiek van omgevingen, en vertoont daardoor meer dan 17 keer verbeteringen in steekproefefficiëntie en generalisatie in vergelijking met eerdere werkzaamheden. Tijdens inferentie redeneert RIG eerst over de volgende actie, produceert potentiële acties, en voorspelt vervolgens de uitkomsten van acties, wat de agent de kans geeft om te beoordelen en zichzelf te corrigeren op basis van de verbeelding voordat echte acties worden ondernomen. Experimentele resultaten tonen aan dat de synergie van redeneren en verbeelding niet alleen de robuustheid, generalisatie en interoperabiliteit van het generalist beleid verbetert, maar ook test-time schaling mogelijk maakt om de algehele prestaties te verhogen.
English
Reasoning before action and imagining potential outcomes (i.e., world models)
are essential for embodied agents operating in complex open-world environments.
Yet, prior work either incorporates only one of these abilities in an
end-to-end agent or integrates multiple specialized models into an agent
system, limiting the learning efficiency and generalization of the policy.
Thus, this paper makes the first attempt to synergize Reasoning and Imagination
in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end
manner, we construct a data pipeline that progressively integrates and enriches
the content of imagination and reasoning in the trajectories collected from
existing agents. The joint learning of reasoning and next image generation
explicitly models the inherent correlation between reasoning, action, and
dynamics of environments, and thus exhibits more than 17times sample
efficiency improvements and generalization in comparison with previous works.
During inference, RIG first reasons about the next action, produces potential
action, and then predicts the action outcomes, which offers the agent a chance
to review and self-correct based on the imagination before taking real actions.
Experimental results show that the synergy of reasoning and imagination not
only improves the robustness, generalization, and interoperability of
generalist policy but also enables test-time scaling to enhance overall
performance.Summary
AI-Generated Summary