World2Minecraft: Belegungsgesteuerte Konstruktion simulierter Szenen
World2Minecraft: Occupancy-Driven Simulated Scenes Construction
April 30, 2026
Autoren: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI
Zusammenfassung
Embodied Intelligence erfordert hochpräzise Simulationsumgebungen zur Unterstützung von Wahrnehmung und Entscheidungsfindung, doch bestehende Plattformen leiden häufig unter Datenkontamination und eingeschränkter Flexibilität. Um dies zu mildern, schlagen wir World2Minecraft vor, um reale Szenen auf der Grundlage von 3D-semantischer Occupancy-Prädiktion in strukturierte Minecraft-Umgebungen zu konvertieren. In den rekonstruierten Szenen können wir mühelos nachgelagerte Aufgaben wie Vision-Language Navigation (VLN) durchführen. Allerdings beobachten wir, dass die Rekonstruktionsqualität stark von genauen Occupancy-Vorhersagen abhängt, die nach wie vor durch Datenknappheit und mangelnde Generalisierungsfähigkeit bestehender Modelle eingeschränkt sind. Wir führen eine kostengünstige, automatisierte und skalierbare Datenerfassungspipeline zur Erstellung maßgeschneiderter Occupancy-Datensätze ein und demonstrieren deren Wirksamkeit anhand von MinecraftOcc, einem groß angelegten Datensatz mit 100.165 Bildern aus 156 detailreichen Innenraumszenen. Umfangreiche Experimente zeigen, dass unser Datensatz eine entscheidende Ergänzung zu bestehenden Datensätzen darstellt und eine bedeutende Herausforderung für aktuelle State-of-the-Art-Methoden bietet. Diese Erkenntnisse tragen zur Verbesserung der Occupancy-Prädiktion bei und unterstreichen den Wert von World2Minecraft als anpassbare und editierbare Plattform für personalisierte Embodied-AI-Forschung. Projektseite: https://world2minecraft.github.io/.
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.