홀로덱: 언어 지시 기반 3D 체화형 AI 환경 생성
Holodeck: Language Guided Generation of 3D Embodied AI Environments
December 14, 2023
저자: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI
초록
3D 시뮬레이션 환경은 구체화된 AI(Embodied AI)에서 중요한 역할을 하지만, 이러한 환경을 생성하려면 전문 지식과 방대한 수작업이 필요하여 다양성과 범위가 제한됩니다. 이러한 한계를 완화하기 위해, 우리는 사용자가 제공한 프롬프트에 맞춰 3D 환경을 완전히 자동으로 생성하는 시스템인 Holodeck을 제안합니다. Holodeck은 아케이드, 스파, 박물관 등 다양한 장면을 생성할 수 있으며, 스타일을 조정하고, "고양이가 있는 연구원의 아파트"나 "스타워즈 팬인 교수의 사무실"과 같은 복잡한 질의의 의미를 파악할 수 있습니다. Holodeck은 상식적인 지식을 위해 대형 언어 모델(GPT-4)을 활용하고, Objaverse의 방대한 3D 자산 컬렉션을 사용하여 장면을 다양한 객체로 채웁니다. 객체를 올바르게 배치하는 문제를 해결하기 위해, GPT-4를 사용하여 객체 간의 공간적 관계 제약을 생성한 후, 이러한 제약을 만족하도록 레이아웃을 최적화합니다. 대규모 인간 평가 결과, 주거 환경에서 Holodeck은 수동으로 설계된 절차적 베이스라인보다 더 선호되며, 다양한 장면 유형에서도 고품질의 출력을 생성할 수 있음이 확인되었습니다. 또한, Holodeck의 흥미로운 응용 사례로, 음악실이나 어린이집과 같은 새로운 장면에서 인간이 구축한 데이터 없이도 에이전트를 훈련시켜 탐색할 수 있음을 보여주었는데, 이는 범용적인 구체화된 에이전트 개발에 있어 중요한 진전입니다.
English
3D simulated environments play a critical role in Embodied AI, but their
creation requires expertise and extensive manual effort, restricting their
diversity and scope. To mitigate this limitation, we present Holodeck, a system
that generates 3D environments to match a user-supplied prompt fully
automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and
museums, adjust the designs for styles, and can capture the semantics of
complex queries such as "apartment for a researcher with a cat" and "office of
a professor who is a fan of Star Wars". Holodeck leverages a large language
model (GPT-4) for common sense knowledge about what the scene might look like
and uses a large collection of 3D assets from Objaverse to populate the scene
with diverse objects. To address the challenge of positioning objects
correctly, we prompt GPT-4 to generate spatial relational constraints between
objects and then optimize the layout to satisfy those constraints. Our
large-scale human evaluation shows that annotators prefer Holodeck over
manually designed procedural baselines in residential scenes and that Holodeck
can produce high-quality outputs for diverse scene types. We also demonstrate
an exciting application of Holodeck in Embodied AI, training agents to navigate
in novel scenes like music rooms and daycares without human-constructed data,
which is a significant step forward in developing general-purpose embodied
agents.