Holodeck: Генерация 3D-сред для воплощённого ИИ с использованием языковых инструкций
Holodeck: Language Guided Generation of 3D Embodied AI Environments
December 14, 2023
Авторы: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI
Аннотация
3D-симулированные среды играют ключевую роль в воплощённом искусственном интеллекте (Embodied AI), однако их создание требует экспертных знаний и значительных ручных усилий, что ограничивает их разнообразие и масштаб. Чтобы смягчить это ограничение, мы представляем Holodeck — систему, которая автоматически генерирует 3D-среды в соответствии с запросом пользователя. Holodeck способен создавать разнообразные сцены, такие как аркады, спа-салоны и музеи, адаптировать дизайн под различные стили и учитывать семантику сложных запросов, например, "квартира для исследователя с котом" или "офис профессора, который является фанатом Звёздных войн". Holodeck использует крупную языковую модель (GPT-4) для получения знаний о том, как может выглядеть сцена, и применяет обширную коллекцию 3D-объектов из Objaverse для наполнения сцены разнообразными элементами. Чтобы решить задачу корректного размещения объектов, мы используем GPT-4 для генерации пространственных ограничений между объектами и затем оптимизируем компоновку для удовлетворения этих ограничений. Наше масштабное человеческое оценивание показывает, что аннотаторы предпочитают Holodeck в сравнении с ручными процедурными базовыми решениями в жилых сценах, а также что Holodeck способен создавать высококачественные результаты для различных типов сцен. Мы также демонстрируем перспективное применение Holodeck в воплощённом ИИ, обучая агентов навигации в новых сценах, таких как музыкальные комнаты и детские сады, без использования данных, созданных человеком, что является значительным шагом вперёд в разработке универсальных воплощённых агентов.
English
3D simulated environments play a critical role in Embodied AI, but their
creation requires expertise and extensive manual effort, restricting their
diversity and scope. To mitigate this limitation, we present Holodeck, a system
that generates 3D environments to match a user-supplied prompt fully
automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and
museums, adjust the designs for styles, and can capture the semantics of
complex queries such as "apartment for a researcher with a cat" and "office of
a professor who is a fan of Star Wars". Holodeck leverages a large language
model (GPT-4) for common sense knowledge about what the scene might look like
and uses a large collection of 3D assets from Objaverse to populate the scene
with diverse objects. To address the challenge of positioning objects
correctly, we prompt GPT-4 to generate spatial relational constraints between
objects and then optimize the layout to satisfy those constraints. Our
large-scale human evaluation shows that annotators prefer Holodeck over
manually designed procedural baselines in residential scenes and that Holodeck
can produce high-quality outputs for diverse scene types. We also demonstrate
an exciting application of Holodeck in Embodied AI, training agents to navigate
in novel scenes like music rooms and daycares without human-constructed data,
which is a significant step forward in developing general-purpose embodied
agents.