GenEx: Generierung einer erkundbaren Welt
GenEx: Generating an Explorable World
December 12, 2024
Autoren: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
cs.AI
Zusammenfassung
Das Verständnis, die Navigation und die Erkundung der 3D-physikalischen realen Welt waren schon lange eine zentrale Herausforderung in der Entwicklung der künstlichen Intelligenz. In dieser Arbeit gehen wir einen Schritt in Richtung dieses Ziels, indem wir GenEx vorstellen, ein System, das in der Lage ist, komplexe verkörperte Weltexploration zu planen, geleitet von seiner generativen Vorstellungskraft, die Erwartungen über die umgebenden Umgebungen bildet. GenEx generiert eine vollständige 3D-konsistente imaginative Umgebung aus nur einem einzigen RGB-Bild und belebt sie durch Panorama-Videostreams. Durch die Nutzung skalierbarer 3D-Weltdaten, die aus der Unreal Engine stammen, ist unser generatives Modell in der physischen Welt verankert. Es erfasst eine kontinuierliche 360-Grad-Umgebung mit geringem Aufwand und bietet eine grenzenlose Landschaft für KI-Agenten, um zu erkunden und zu interagieren. GenEx erreicht eine hochwertige Weltgenerierung, robuste Schleifenkonsistenz über lange Trajektorien und zeigt starke 3D-Fähigkeiten wie Konsistenz und aktives 3D-Mapping. Angetrieben von der generativen Vorstellungskraft der Welt sind GPT-unterstützte Agenten in der Lage, komplexe verkörperte Aufgaben auszuführen, einschließlich sowohl zielagnostischer Exploration als auch zielgesteuerter Navigation. Diese Agenten nutzen vorhersagende Erwartungen bezüglich unerforschter Teile der physischen Welt, um ihre Überzeugungen zu verfeinern, verschiedene Ergebnisse basierend auf potenziellen Entscheidungen zu simulieren und informiertere Entscheidungen zu treffen. Zusammenfassend zeigen wir, dass GenEx eine transformative Plattform für die Weiterentwicklung von verkörpertem KI in imaginären Räumen bietet und das Potenzial hat, diese Fähigkeiten auf die Erforschung der realen Welt auszudehnen.
English
Understanding, navigating, and exploring the 3D physical real world has long
been a central challenge in the development of artificial intelligence. In this
work, we take a step toward this goal by introducing GenEx, a system capable of
planning complex embodied world exploration, guided by its generative
imagination that forms priors (expectations) about the surrounding
environments. GenEx generates an entire 3D-consistent imaginative environment
from as little as a single RGB image, bringing it to life through panoramic
video streams. Leveraging scalable 3D world data curated from Unreal Engine,
our generative model is rounded in the physical world. It captures a continuous
360-degree environment with little effort, offering a boundless landscape for
AI agents to explore and interact with. GenEx achieves high-quality world
generation, robust loop consistency over long trajectories, and demonstrates
strong 3D capabilities such as consistency and active 3D mapping. Powered by
generative imagination of the world, GPT-assisted agents are equipped to
perform complex embodied tasks, including both goal-agnostic exploration and
goal-driven navigation. These agents utilize predictive expectation regarding
unseen parts of the physical world to refine their beliefs, simulate different
outcomes based on potential decisions, and make more informed choices. In
summary, we demonstrate that GenEx provides a transformative platform for
advancing embodied AI in imaginative spaces and brings potential for extending
these capabilities to real-world exploration.Summary
AI-Generated Summary