GenEx: Generando un Mundo Explorable
GenEx: Generating an Explorable World
December 12, 2024
Autores: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
cs.AI
Resumen
Entender, navegar y explorar el mundo físico tridimensional ha sido durante mucho tiempo un desafío central en el desarrollo de la inteligencia artificial. En este trabajo, avanzamos hacia este objetivo al presentar GenEx, un sistema capaz de planificar una exploración del mundo compleja encarnada, guiada por su imaginación generativa que forma preconcepciones (expectativas) sobre los entornos circundantes. GenEx genera un entorno imaginativo completo y coherente en 3D a partir de tan solo una imagen RGB, dándole vida a través de secuencias de video panorámicas. Aprovechando datos de mundo 3D escalables seleccionados de Unreal Engine, nuestro modelo generativo se fundamenta en el mundo físico. Captura un entorno continuo de 360 grados con poco esfuerzo, ofreciendo un paisaje ilimitado para que los agentes de IA exploren e interactúen. GenEx logra una generación de mundo de alta calidad, una consistencia de bucle sólida a lo largo de trayectorias largas y demuestra sólidas capacidades en 3D como consistencia y mapeo 3D activo. Impulsados por la imaginación generativa del mundo, los agentes asistidos por GPT están equipados para realizar tareas encarnadas complejas, incluida la exploración sin un objetivo específico y la navegación dirigida por objetivos. Estos agentes utilizan expectativas predictivas sobre partes no vistas del mundo físico para refinar sus creencias, simular diferentes resultados basados en decisiones potenciales y tomar decisiones más informadas. En resumen, demostramos que GenEx proporciona una plataforma transformadora para avanzar en la IA encarnada en espacios imaginativos y ofrece el potencial de extender estas capacidades a la exploración del mundo real.
English
Understanding, navigating, and exploring the 3D physical real world has long
been a central challenge in the development of artificial intelligence. In this
work, we take a step toward this goal by introducing GenEx, a system capable of
planning complex embodied world exploration, guided by its generative
imagination that forms priors (expectations) about the surrounding
environments. GenEx generates an entire 3D-consistent imaginative environment
from as little as a single RGB image, bringing it to life through panoramic
video streams. Leveraging scalable 3D world data curated from Unreal Engine,
our generative model is rounded in the physical world. It captures a continuous
360-degree environment with little effort, offering a boundless landscape for
AI agents to explore and interact with. GenEx achieves high-quality world
generation, robust loop consistency over long trajectories, and demonstrates
strong 3D capabilities such as consistency and active 3D mapping. Powered by
generative imagination of the world, GPT-assisted agents are equipped to
perform complex embodied tasks, including both goal-agnostic exploration and
goal-driven navigation. These agents utilize predictive expectation regarding
unseen parts of the physical world to refine their beliefs, simulate different
outcomes based on potential decisions, and make more informed choices. In
summary, we demonstrate that GenEx provides a transformative platform for
advancing embodied AI in imaginative spaces and brings potential for extending
these capabilities to real-world exploration.Summary
AI-Generated Summary