Holodeck: Generazione Guidata dal Linguaggio di Ambienti 3D per l'Intelligenza Artificiale Embodied
Holodeck: Language Guided Generation of 3D Embodied AI Environments
December 14, 2023
Autori: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI
Abstract
Gli ambienti simulati in 3D svolgono un ruolo cruciale nell'AI incarnata, ma la loro creazione richiede competenze e un ampio sforzo manuale, limitandone la diversità e la portata. Per mitigare questa limitazione, presentiamo Holodeck, un sistema che genera ambienti 3D in modo completamente automatizzato in base a un prompt fornito dall'utente. Holodeck può generare scene diversificate, come sale giochi, spa e musei, adattare i design a diversi stili e catturare la semantica di query complesse come "appartamento per un ricercatore con un gatto" e "ufficio di un professore fan di Star Wars". Holodeck sfrutta un modello linguistico di grandi dimensioni (GPT-4) per acquisire conoscenze di senso comune su come potrebbe apparire la scena e utilizza una vasta raccolta di asset 3D da Objaverse per popolare la scena con oggetti diversificati. Per affrontare la sfida del posizionamento corretto degli oggetti, sollecitiamo GPT-4 a generare vincoli relazionali spaziali tra gli oggetti e poi ottimizziamo il layout per soddisfare tali vincoli. La nostra valutazione su larga scala condotta da esseri umani mostra che gli annotatori preferiscono Holodeck rispetto alle baseline procedurali progettate manualmente per scene residenziali e che Holodeck può produrre output di alta qualità per diversi tipi di scene. Dimostriamo inoltre un'applicazione entusiasmante di Holodeck nell'AI incarnata, addestrando agenti a navigare in scene nuove come stanze della musica e asili nido senza dati costruiti dall'uomo, rappresentando un significativo passo avanti nello sviluppo di agenti incarnati a scopo generale.
English
3D simulated environments play a critical role in Embodied AI, but their
creation requires expertise and extensive manual effort, restricting their
diversity and scope. To mitigate this limitation, we present Holodeck, a system
that generates 3D environments to match a user-supplied prompt fully
automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and
museums, adjust the designs for styles, and can capture the semantics of
complex queries such as "apartment for a researcher with a cat" and "office of
a professor who is a fan of Star Wars". Holodeck leverages a large language
model (GPT-4) for common sense knowledge about what the scene might look like
and uses a large collection of 3D assets from Objaverse to populate the scene
with diverse objects. To address the challenge of positioning objects
correctly, we prompt GPT-4 to generate spatial relational constraints between
objects and then optimize the layout to satisfy those constraints. Our
large-scale human evaluation shows that annotators prefer Holodeck over
manually designed procedural baselines in residential scenes and that Holodeck
can produce high-quality outputs for diverse scene types. We also demonstrate
an exciting application of Holodeck in Embodied AI, training agents to navigate
in novel scenes like music rooms and daycares without human-constructed data,
which is a significant step forward in developing general-purpose embodied
agents.