ChatPaper.aiChatPaper

RIG: Synergie von logischem Denken und Vorstellungskraft in einer End-to-End-Generalisten-Politik

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

March 31, 2025
Autoren: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
cs.AI

Zusammenfassung

Handeln nach vorheriger Überlegung und das Vorstellen möglicher Ergebnisse (d.h. Weltmodelle) sind entscheidend für verkörperte Agenten, die in komplexen, offenen Umgebungen operieren. Bisherige Arbeiten integrieren jedoch entweder nur eine dieser Fähigkeiten in einen End-to-End-Agenten oder kombinieren mehrere spezialisierte Modelle in einem Agentensystem, was die Lerneffizienz und Generalisierung der Policy einschränkt. Daher unternimmt diese Arbeit den ersten Versuch, Überlegung und Vorstellungskraft in einer End-to-End-Generalist-Policy, genannt RIG, zu vereinen. Um RIG auf End-to-End-Basis zu trainieren, konstruieren wir eine Datenpipeline, die den Inhalt von Vorstellungskraft und Überlegung in den von bestehenden Agenten gesammelten Trajektorien schrittweise integriert und anreichert. Das gemeinsame Lernen von Überlegung und der Generierung des nächsten Bildes modelliert explizit die inhärente Korrelation zwischen Überlegung, Handlung und der Dynamik der Umgebung und zeigt somit eine mehr als 17-fache Verbesserung der Stichprobeneffizienz und Generalisierung im Vergleich zu früheren Arbeiten. Während der Inferenz überlegt RIG zunächst die nächste Handlung, erzeugt potenzielle Aktionen und prognostiziert dann die Handlungsergebnisse, was dem Agenten die Möglichkeit bietet, basierend auf der Vorstellungskraft zu überprüfen und sich selbst zu korrigieren, bevor reale Handlungen ausgeführt werden. Experimentelle Ergebnisse zeigen, dass die Synergie von Überlegung und Vorstellungskraft nicht nur die Robustheit, Generalisierung und Interoperabilität der Generalist-Policy verbessert, sondern auch eine Skalierung zur Laufzeit ermöglicht, um die Gesamtleistung zu steigern.
English
Reasoning before action and imagining potential outcomes (i.e., world models) are essential for embodied agents operating in complex open-world environments. Yet, prior work either incorporates only one of these abilities in an end-to-end agent or integrates multiple specialized models into an agent system, limiting the learning efficiency and generalization of the policy. Thus, this paper makes the first attempt to synergize Reasoning and Imagination in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end manner, we construct a data pipeline that progressively integrates and enriches the content of imagination and reasoning in the trajectories collected from existing agents. The joint learning of reasoning and next image generation explicitly models the inherent correlation between reasoning, action, and dynamics of environments, and thus exhibits more than 17times sample efficiency improvements and generalization in comparison with previous works. During inference, RIG first reasons about the next action, produces potential action, and then predicts the action outcomes, which offers the agent a chance to review and self-correct based on the imagination before taking real actions. Experimental results show that the synergy of reasoning and imagination not only improves the robustness, generalization, and interoperability of generalist policy but also enables test-time scaling to enhance overall performance.

Summary

AI-Generated Summary

PDF302April 1, 2025