Holodeck : Génération d'environnements 3D pour l'IA incarnée guidée par le langage
Holodeck: Language Guided Generation of 3D Embodied AI Environments
December 14, 2023
Auteurs: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI
Résumé
Les environnements simulés en 3D jouent un rôle crucial dans l'IA incarnée, mais leur création nécessite une expertise et un effort manuel considérable, limitant ainsi leur diversité et leur portée. Pour pallier cette limitation, nous présentons Holodeck, un système qui génère des environnements 3D en réponse à une requête utilisateur de manière entièrement automatisée. Holodeck peut générer des scènes variées, telles que des salles d'arcade, des spas et des musées, adapter les designs à différents styles, et capturer la sémantique de requêtes complexes comme "appartement pour un chercheur avec un chat" ou "bureau d'un professeur fan de Star Wars". Holodeck s'appuie sur un modèle de langage de grande envergure (GPT-4) pour acquérir des connaissances de bon sens sur l'apparence possible de la scène et utilise une vaste collection d'objets 3D provenant d'Objaverse pour peupler la scène avec des objets diversifiés. Pour relever le défi du positionnement correct des objets, nous incitons GPT-4 à générer des contraintes relationnelles spatiales entre les objets, puis nous optimisons la disposition pour satisfaire ces contraintes. Notre évaluation humaine à grande échelle montre que les annotateurs préfèrent Holodeck aux bases de référence procédurales conçues manuellement pour les scènes résidentielles, et que Holodeck peut produire des résultats de haute qualité pour divers types de scènes. Nous démontrons également une application passionnante de Holodeck dans l'IA incarnée, en entraînant des agents à naviguer dans des scènes nouvelles comme des salles de musique et des garderies sans données construites par l'homme, ce qui représente une avancée significative dans le développement d'agents incarnés à usage général.
English
3D simulated environments play a critical role in Embodied AI, but their
creation requires expertise and extensive manual effort, restricting their
diversity and scope. To mitigate this limitation, we present Holodeck, a system
that generates 3D environments to match a user-supplied prompt fully
automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and
museums, adjust the designs for styles, and can capture the semantics of
complex queries such as "apartment for a researcher with a cat" and "office of
a professor who is a fan of Star Wars". Holodeck leverages a large language
model (GPT-4) for common sense knowledge about what the scene might look like
and uses a large collection of 3D assets from Objaverse to populate the scene
with diverse objects. To address the challenge of positioning objects
correctly, we prompt GPT-4 to generate spatial relational constraints between
objects and then optimize the layout to satisfy those constraints. Our
large-scale human evaluation shows that annotators prefer Holodeck over
manually designed procedural baselines in residential scenes and that Holodeck
can produce high-quality outputs for diverse scene types. We also demonstrate
an exciting application of Holodeck in Embodied AI, training agents to navigate
in novel scenes like music rooms and daycares without human-constructed data,
which is a significant step forward in developing general-purpose embodied
agents.