ChatPaper.aiChatPaper

GenEx: Het Genereren van een Verkenbare Wereld

GenEx: Generating an Explorable World

December 12, 2024
Auteurs: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
cs.AI

Samenvatting

Het begrijpen, navigeren en verkennen van de driedimensionale fysieke echte wereld is al lange tijd een centrale uitdaging in de ontwikkeling van kunstmatige intelligentie. In dit werk zetten we een stap in de richting van dit doel door GenEx te introduceren, een systeem dat in staat is om complexe verkenning van de wereld uit te voeren, geleid door zijn generatieve verbeelding die verwachtingen vormt over de omringende omgevingen. GenEx genereert een volledige driedimensionaal consistente denkbeeldige omgeving vanuit slechts een enkele RGB-afbeelding, en brengt deze tot leven door panoramische videostreams. Door gebruik te maken van schaalbare driedimensionale wereldgegevens samengesteld uit Unreal Engine, is ons generatieve model verankerd in de fysieke wereld. Het legt een continue 360-graden omgeving vast met weinig moeite, en biedt een grenzeloos landschap voor AI-agenten om te verkennen en mee te interacteren. GenEx bereikt hoogwaardige wereldgeneratie, robuuste lusconsistentie over lange trajecten, en toont sterke driedimensionale capaciteiten zoals consistentie en actieve driedimensionale mapping. Aangedreven door de generatieve verbeelding van de wereld, zijn GPT-ondersteunde agenten in staat om complexe verankerde taken uit te voeren, waaronder zowel doel-agnostische verkenning als doelgerichte navigatie. Deze agenten maken gebruik van voorspellende verwachtingen met betrekking tot ongeziene delen van de fysieke wereld om hun overtuigingen te verfijnen, verschillende uitkomsten te simuleren op basis van potentiële beslissingen, en meer geïnformeerde keuzes te maken. Samengevat tonen we aan dat GenEx een transformerend platform biedt voor het bevorderen van verankerde AI in denkbeeldige ruimtes en mogelijkheden biedt om deze capaciteiten uit te breiden naar verkenning in de echte wereld.
English
Understanding, navigating, and exploring the 3D physical real world has long been a central challenge in the development of artificial intelligence. In this work, we take a step toward this goal by introducing GenEx, a system capable of planning complex embodied world exploration, guided by its generative imagination that forms priors (expectations) about the surrounding environments. GenEx generates an entire 3D-consistent imaginative environment from as little as a single RGB image, bringing it to life through panoramic video streams. Leveraging scalable 3D world data curated from Unreal Engine, our generative model is rounded in the physical world. It captures a continuous 360-degree environment with little effort, offering a boundless landscape for AI agents to explore and interact with. GenEx achieves high-quality world generation, robust loop consistency over long trajectories, and demonstrates strong 3D capabilities such as consistency and active 3D mapping. Powered by generative imagination of the world, GPT-assisted agents are equipped to perform complex embodied tasks, including both goal-agnostic exploration and goal-driven navigation. These agents utilize predictive expectation regarding unseen parts of the physical world to refine their beliefs, simulate different outcomes based on potential decisions, and make more informed choices. In summary, we demonstrate that GenEx provides a transformative platform for advancing embodied AI in imaginative spaces and brings potential for extending these capabilities to real-world exploration.
PDF972December 16, 2024