ChatPaper.aiChatPaper

World2Minecraft: Costruzione di Scene Simulate Guidata dall'Occupazione

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

April 30, 2026
Autori: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI

Abstract

L'intelligenza incarnata richiede ambienti di simulazione ad alta fedeltà per supportare la percezione e la presa di decisioni, ma le piattaforme esistenti spesso soffrono di contaminazione dei dati e limitata flessibilità. Per ovviare a questo problema, proponiamo World2Minecraft per convertire scene del mondo reale in ambienti strutturati di Minecraft basandoci sulla previsione di occupazione semantica 3D. Nelle scene ricostruite, possiamo eseguire senza sforzo compiti a valle come la navigazione visione-linguaggio (VLN). Tuttavia, osserviamo che la qualità della ricostruzione dipende fortemente da una previsione accurata dell'occupazione, che rimane limitata dalla scarsità di dati e dalla scarsa generalizzazione dei modelli esistenti. Introduciamo una pipeline di acquisizione dati automatizzata, scalabile e a basso costo per creare dataset di occupazione personalizzati, e ne dimostriamo l'efficacia attraverso MinecraftOcc, un dataset su larga scala che comprende 100.165 immagini provenienti da 156 scene interne ricche di dettagli. Esperimenti estensivi mostrano che il nostro dataset fornisce un complemento cruciale ai dataset esistenti e rappresenta una sfida significativa per i metodi allo stato dell'arte attuali. Questi risultati contribuiscono a migliorare la previsione dell'occupazione e sottolineano il valore di World2Minecraft nel fornire una piattaforma personalizzabile e modificabile per la ricerca personalizzata sull'IA incarnata. Pagina del progetto: https://world2minecraft.github.io/.
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.
PDF21May 2, 2026