World2Minecraft:オキュパンシー駆動による仮想シーン構築
World2Minecraft: Occupancy-Driven Simulated Scenes Construction
April 30, 2026
著者: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI
要旨
エンボディード知能には知覚と意思決定を支援する高精度なシミュレーション環境が不可欠であるが、既存プラットフォームではデータ汚染や柔軟性の不足が課題となっている。この問題を解決するため、我々は実世界シーンを3Dセマンティック占有予測に基づいて構造化されたMinecraft環境へ変換するWorld2Minecraftを提案する。再構築されたシーンでは、Vision-Language Navigation(VLN)などの下流タスクを容易に実行できる。しかしながら、再構築の品質が正確な占有予測に強く依存すること、既存モデルがデータ不足と一般化性能の低さに制約されていることを確認した。本論文では、カスタマイズされた占有データセット作成のための低コスト・自動化・スケーラブルなデータ取得パイプラインを導入し、156の詳細な室内シーンからなる100,165枚の画像を特徴とする大規模データセットMinecraftOccを通じてその有効性を実証する。大規模な実験により、本データセットが既存データセットに対する重要な補完となり、現在のSOTA手法に大きな挑戦を提起することを示す。これらの知見は占有予測の改善に寄与し、個人化されたエンボディードAI研究のためのカスタマイズ可能かつ編集可能なプラットフォームとしてのWorld2Minecraftの価値を強調する。プロジェクトページ:https://world2minecraft.github.io/。
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.