ChatPaper.aiChatPaper

ホロデック:言語誘導型3DエンボディドAI環境生成

Holodeck: Language Guided Generation of 3D Embodied AI Environments

December 14, 2023
著者: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
cs.AI

要旨

3Dシミュレーション環境はエンボディドAIにおいて重要な役割を果たしますが、その作成には専門知識と多大な手作業が必要であり、多様性と範囲が制限されています。この制限を緩和するため、私たちはHolodeckを提案します。これは、ユーザーが提供したプロンプトに完全に自動で対応する3D環境を生成するシステムです。Holodeckは、アーケード、スパ、博物館など多様なシーンを生成し、デザインをスタイルに合わせて調整することができます。さらに、「猫を飼っている研究者のアパート」や「スターウォーズのファンである教授のオフィス」といった複雑なクエリの意味を捉えることができます。Holodeckは、シーンの外観に関する常識的な知識を大規模言語モデル(GPT-4)を活用し、Objaverseの大規模な3Dアセットコレクションを使用してシーンを多様なオブジェクトで埋め尽くします。オブジェクトを正しく配置するという課題に対処するため、GPT-4にオブジェクト間の空間的関係制約を生成させ、それらの制約を満たすようにレイアウトを最適化します。大規模な人間による評価では、アノテーターは住宅シーンにおいて手動で設計された手続き型ベースラインよりもHolodeckを好み、Holodeckが多様なシーンタイプに対して高品質の出力を生成できることが示されました。また、HolodeckのエンボディドAIにおける興味深い応用例として、音楽室や保育園といった新しいシーンでエージェントをナビゲートする訓練を、人間が構築したデータなしで行うことを実証しました。これは、汎用エンボディドエージェントの開発において重要な一歩です。
English
3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.
PDF162December 15, 2024