ChatPaper.aiChatPaper

Holodeck: Taalgestuurde Generatie van 3D Belichaamde AI-omgevingen

Holodeck: Language Guided Generation of 3D Embodied AI Environments

December 14, 2023
Auteurs: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI

Samenvatting

3D-gesimuleerde omgevingen spelen een cruciale rol in Embodied AI, maar hun creatie vereist expertise en uitgebreide handmatige inspanning, wat hun diversiteit en reikwijdte beperkt. Om deze beperking te verlichten, presenteren we Holodeck, een systeem dat 3D-omgevingen genereert die volledig automatisch aansluiten bij een door de gebruiker opgegeven prompt. Holodeck kan diverse scènes genereren, zoals arcades, spa's en musea, de ontwerpen aanpassen aan verschillende stijlen, en de semantiek vastleggen van complexe queries zoals "appartement voor een onderzoeker met een kat" en "kantoor van een professor die fan is van Star Wars". Holodeck maakt gebruik van een groot taalmodel (GPT-4) voor gezond verstand over hoe de scène eruit zou kunnen zien en gebruikt een grote verzameling 3D-assets van Objaverse om de scène te vullen met diverse objecten. Om de uitdaging van het correct positioneren van objecten aan te pakken, vragen we GPT-4 om ruimtelijke relatiebeperkingen tussen objecten te genereren en optimaliseren we de lay-out om aan die beperkingen te voldoen. Onze grootschalige menselijke evaluatie toont aan dat annotators Holodeck verkiezen boven handmatig ontworpen procedurele baselines in residentiële scènes en dat Holodeck hoogwaardige uitvoer kan produceren voor diverse scènetypes. We demonstreren ook een spannende toepassing van Holodeck in Embodied AI, waarbij we agents trainen om te navigeren in nieuwe scènes zoals muziekkamers en kinderdagverblijven zonder door mensen geconstrueerde data, wat een significante stap voorwaarts is in de ontwikkeling van algemene embodied agents.
English
3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.
PDF162December 15, 2024