ChatPaper.aiChatPaper

Holodeck: Sprachgesteuerte Generierung von 3D-verkörperten KI-Umgebungen

Holodeck: Language Guided Generation of 3D Embodied AI Environments

December 14, 2023
Autoren: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI

Zusammenfassung

3D-simulierte Umgebungen spielen eine entscheidende Rolle in der Embodied AI, doch ihre Erstellung erfordert Fachwissen und umfangreichen manuellen Aufwand, was ihre Vielfalt und ihren Umfang einschränkt. Um diese Einschränkung zu überwinden, präsentieren wir Holodeck, ein System, das 3D-Umgebungen vollautomatisch auf der Grundlage eines benutzerdefinierten Prompts generiert. Holodeck kann vielfältige Szenen wie Spielhallen, Spas und Museen erstellen, die Designs an verschiedene Stile anpassen und die Semantik komplexer Anfragen wie „Wohnung für einen Forscher mit einer Katze“ oder „Büro eines Professors, der ein Fan von Star Wars ist“ erfassen. Holodeck nutzt ein großes Sprachmodell (GPT-4) für allgemeines Wissen darüber, wie eine Szene aussehen könnte, und verwendet eine umfangreiche Sammlung von 3D-Assets aus Objaverse, um die Szene mit diversen Objekten zu füllen. Um die Herausforderung der korrekten Positionierung von Objekten zu bewältigen, fordern wir GPT-4 auf, räumliche Beziehungsbedingungen zwischen den Objekten zu generieren, und optimieren dann das Layout, um diese Bedingungen zu erfüllen. Unsere groß angelegte menschliche Bewertung zeigt, dass Annotatoren Holodeck gegenüber manuell entworfenen prozeduralen Baselines in Wohnszenen bevorzugen und dass Holodeck hochwertige Ergebnisse für verschiedene Szenentypen liefern kann. Wir demonstrieren auch eine spannende Anwendung von Holodeck in der Embodied AI, bei der Agenten trainiert werden, sich in neuartigen Szenen wie Musikräumen und Kindertagesstätten zu bewegen, ohne auf von Menschen erstellte Daten zurückzugreifen. Dies stellt einen bedeutenden Schritt in der Entwicklung von allgemein einsetzbaren Embodied Agents dar.
English
3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.
PDF162December 15, 2024