ChatPaper.aiChatPaper

Holodeck: Generación de Entornos 3D para IA Embebida Guiada por Lenguaje

Holodeck: Language Guided Generation of 3D Embodied AI Environments

December 14, 2023
Autores: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI

Resumen

Los entornos simulados en 3D desempeñan un papel crucial en la Inteligencia Artificial Embebida (Embodied AI), pero su creación requiere experiencia y un esfuerzo manual extenso, lo que limita su diversidad y alcance. Para mitigar esta limitación, presentamos Holodeck, un sistema que genera entornos en 3D que coinciden con una indicación proporcionada por el usuario de manera completamente automatizada. Holodeck puede generar escenas diversas, como salas de juegos, spas y museos, ajustar los diseños según estilos y capturar la semántica de consultas complejas como "apartamento para un investigador con un gato" y "oficina de un profesor fanático de Star Wars". Holodeck aprovecha un modelo de lenguaje grande (GPT-4) para obtener conocimiento de sentido común sobre cómo podría verse la escena y utiliza una amplia colección de recursos 3D de Objaverse para poblar la escena con objetos diversos. Para abordar el desafío de posicionar los objetos correctamente, solicitamos a GPT-4 que genere restricciones de relaciones espaciales entre los objetos y luego optimizamos el diseño para satisfacer esas restricciones. Nuestra evaluación humana a gran escala muestra que los anotadores prefieren Holodeck sobre líneas base procedimentales diseñadas manualmente en escenas residenciales, y que Holodeck puede producir resultados de alta calidad para diversos tipos de escenas. También demostramos una aplicación emocionante de Holodeck en Embodied AI, entrenando agentes para navegar en escenas novedosas como salas de música y guarderías sin datos construidos por humanos, lo que representa un avance significativo en el desarrollo de agentes embebidos de propósito general.
English
3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.
PDF162December 15, 2024