InternScenes: 現実的なレイアウトを備えた大規模シミュレーション可能な屋内シーンデータセット
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
September 13, 2025
著者: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI
要旨
エンボディドAIの進展は、シーンの多様性と現実的なレイアウトを特徴とする大規模でシミュレーション可能な3Dシーンデータセットに大きく依存しています。しかし、既存のデータセットは、データの規模や多様性の制限、小物が欠如した清潔なレイアウト、深刻なオブジェクト衝突といった課題を抱えています。これらの欠点を解決するため、私たちはInternScenesを紹介します。これは、3つの異なるシーンソース(実世界のスキャン、手続き的に生成されたシーン、デザイナーが作成したシーン)を統合し、約40,000の多様なシーンを含む新たな大規模シミュレーション可能な屋内シーンデータセットです。これには1.96Mの3Dオブジェクトが含まれ、15の一般的なシーンタイプと288のオブジェクトクラスをカバーしています。特に、シーン内の大量の小物を保持することで、1領域あたり平均41.5のオブジェクトを持つ現実的で複雑なレイアウトを実現しています。私たちの包括的なデータ処理パイプラインは、実世界のスキャンに対してリアルからシミュレーションへのレプリカを作成することでシミュレーション可能性を確保し、インタラクティブなオブジェクトをこれらのシーンに組み込むことでインタラクティビティを向上させ、物理シミュレーションを通じてオブジェクト衝突を解決します。InternScenesの価値を、シーンレイアウト生成とポイントゴールナビゲーションという2つのベンチマークアプリケーションで示します。どちらも、複雑で現実的なレイアウトがもたらす新たな課題を明らかにしています。さらに重要なことに、InternScenesは、両タスクのモデルトレーニングをスケールアップする道を開き、そのような複雑なシーンでの生成とナビゲーションを可能にします。私たちは、データ、モデル、ベンチマークをオープンソース化し、コミュニティ全体に貢献することを約束します。
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D
scene datasets characterized by scene diversity and realistic layouts. However,
existing datasets typically suffer from limitations in data scale or diversity,
sanitized layouts lacking small items, and severe object collisions. To address
these shortcomings, we introduce InternScenes, a novel large-scale
simulatable indoor scene dataset comprising approximately 40,000 diverse scenes
by integrating three disparate scene sources, real-world scans, procedurally
generated scenes, and designer-created scenes, including 1.96M 3D objects and
covering 15 common scene types and 288 object classes. We particularly preserve
massive small items in the scenes, resulting in realistic and complex layouts
with an average of 41.5 objects per region. Our comprehensive data processing
pipeline ensures simulatability by creating real-to-sim replicas for real-world
scans, enhances interactivity by incorporating interactive objects into these
scenes, and resolves object collisions by physical simulations. We demonstrate
the value of InternScenes with two benchmark applications: scene layout
generation and point-goal navigation. Both show the new challenges posed by the
complex and realistic layouts. More importantly, InternScenes paves the way for
scaling up the model training for both tasks, making the generation and
navigation in such complex scenes possible. We commit to open-sourcing the
data, models, and benchmarks to benefit the whole community.