Holodeck : Génération d'environnements 3D pour l'IA incarnée guidée par le langage

papers.abstract

Les environnements simulés en 3D jouent un rôle crucial dans l'IA incarnée, mais leur création nécessite une expertise et un effort manuel considérable, limitant ainsi leur diversité et leur portée. Pour pallier cette limitation, nous présentons Holodeck, un système qui génère des environnements 3D en réponse à une requête utilisateur de manière entièrement automatisée. Holodeck peut générer des scènes variées, telles que des salles d'arcade, des spas et des musées, adapter les designs à différents styles, et capturer la sémantique de requêtes complexes comme "appartement pour un chercheur avec un chat" ou "bureau d'un professeur fan de Star Wars". Holodeck s'appuie sur un modèle de langage de grande envergure (GPT-4) pour acquérir des connaissances de bon sens sur l'apparence possible de la scène et utilise une vaste collection d'objets 3D provenant d'Objaverse pour peupler la scène avec des objets diversifiés. Pour relever le défi du positionnement correct des objets, nous incitons GPT-4 à générer des contraintes relationnelles spatiales entre les objets, puis nous optimisons la disposition pour satisfaire ces contraintes. Notre évaluation humaine à grande échelle montre que les annotateurs préfèrent Holodeck aux bases de référence procédurales conçues manuellement pour les scènes résidentielles, et que Holodeck peut produire des résultats de haute qualité pour divers types de scènes. Nous démontrons également une application passionnante de Holodeck dans l'IA incarnée, en entraînant des agents à naviguer dans des scènes nouvelles comme des salles de musique et des garderies sans données construites par l'homme, ce qui représente une avancée significative dans le développement d'agents incarnés à usage général.

English

3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.

Holodeck : Génération d'environnements 3D pour l'IA incarnée guidée par le langage

Holodeck: Language Guided Generation of 3D Embodied AI Environments

papers.abstract

Support