ChatPaper.aiChatPaper

World2Minecraft: Op bezettingsgraad gebaseerde constructie van gesimuleerde scènes

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

April 30, 2026
Auteurs: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI

Samenvatting

Geëmbodieerde intelligentie vereist hoogwaardige simulatieomgevingen om waarneming en besluitvorming te ondersteunen, maar bestaande platforms kampen vaak met datacontaminatie en beperkte flexibiliteit. Om dit te verhelpen stellen we World2Minecraft voor, dat real-world scènes omzet in gestructureerde Minecraft-omgevingen op basis van 3D semantische occupancievoorspelling. In de gereconstrueerde scènes kunnen we moeiteloos downstreamtaken uitvoeren zoals Vision-Language Navigation (VLN). We merken echter dat de reconstructiekwaliteit sterk afhangt van accurate occupancievoorspelling, die beperkt blijft door dataschaarste en zwakke generalisatie in bestaande modellen. We introduceren een kostenefficiënt, geautomatiseerd en schaalbaar data-acquisitieproces voor het creëren van maatwerk occupancy-datasets, en demonstreren de effectiviteit ervan met MinecraftOcc, een grootschalige dataset met 100.165 afbeeldingen uit 156 rijkgedetailleerde binnenruimtes. Uitgebreide experimenten tonen aan dat onze dataset een cruciale aanvulling vormt op bestaande datasets en een significante uitdaging biedt voor huidige state-of-the-art methoden. Deze bevindingen dragen bij aan verbeterde occupancievoorspelling en benadrukken de waarde van World2Minecraft als aanpasbaar en bewerkbaar platform voor gepersonaliseerd geëmbodieerd AI-onderzoek. Projectpagina: https://world2minecraft.github.io/.
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.
PDF21May 2, 2026