World2Minecraft: Construcción de Escenas Simuladas Basada en Ocupación
World2Minecraft: Occupancy-Driven Simulated Scenes Construction
April 30, 2026
Autores: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI
Resumen
La inteligencia incorporada requiere entornos de simulación de alta fidelidad para respaldar la percepción y la toma de decisiones, pero las plataformas existentes a menudo sufren de contaminación de datos y flexibilidad limitada. Para mitigar esto, proponemos World2Minecraft para convertir escenas del mundo real en entornos estructurados de Minecraft basados en la predicción de ocupación semántica 3D. En las escenas reconstruidas, podemos realizar sin esfuerzo tareas posteriores como la Navegación Visión-Lenguaje (VLN). Sin embargo, observamos que la calidad de la reconstrucción depende en gran medida de una predicción precisa de la ocupación, que sigue estando limitada por la escasez de datos y la pobre generalización en los modelos existentes. Introducimos un pipeline de adquisición de datos automatizado, escalable y de bajo costo para crear conjuntos de datos de ocupación personalizados, y demostramos su eficacia a través de MinecraftOcc, un conjunto de datos a gran escala que incluye 100.165 imágenes de 156 escenas interiores ricamente detalladas. Experimentos exhaustivos muestran que nuestro conjunto de datos proporciona un complemento crucial a los conjuntos existentes y representa un desafío significativo para los métodos actuales de vanguardia (SOTA). Estos hallazgos contribuyen a mejorar la predicción de ocupación y destacan el valor de World2Minecraft al proporcionar una plataforma personalizable y editable para la investigación personalizada de IA incorporada. Página del proyecto: https://world2minecraft.github.io/.
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.