ChatPaper.aiChatPaper

World2Minecraft : Construction de Scènes Simulées Guidée par l'Occupation

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

April 30, 2026
Auteurs: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI

Résumé

L'intelligence incarnée nécessite des environnements de simulation haute fidélité pour soutenir la perception et la prise de décision, mais les plateformes existantes souffrent souvent de contamination des données et d'une flexibilité limitée. Pour y remédier, nous proposons World2Minecraft, qui convertit des scènes du monde réel en environnements Minecraft structurés basés sur la prédiction d'occupation sémantique 3D. Dans les scènes reconstruites, nous pouvons effectuer sans effort des tâches en aval telles que la navigation vision-langage (VLN). Cependant, nous observons que la qualité de la reconstruction dépend fortement d'une prédiction d'occupation précise, qui reste limitée par la rareté des données et la faible généralisation des modèles existants. Nous introduisons un pipeline d'acquisition de données automatisé, peu coûteux et évolutif pour créer des ensembles de données d'occupation personnalisés, et démontrons son efficacité grâce à MinecraftOcc, un jeu de données à grande échelle comprenant 100 165 images provenant de 156 scènes intérieures richement détaillées. Des expériences approfondies montrent que notre jeu de données constitue un complément essentiel aux ensembles existants et représente un défi significatif pour les méthodes actuelles de l'état de l'art. Ces résultats contribuent à l'amélioration de la prédiction d'occupation et soulignent la valeur de World2Minecraft en fournissant une plateforme personnalisable et modifiable pour la recherche en IA incarnée personnalisée. Page du projet : https://world2minecraft.github.io/.
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.
PDF21May 2, 2026