ChatPaper.aiChatPaper

World2Minecraft: Construção de Cenários Simulados Orientada por Ocupação

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

April 30, 2026
Autores: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI

Resumo

A inteligência incorporada requer ambientes de simulação de alta fidelidade para suportar a perceção e a tomada de decisão, no entanto, as plataformas existentes sofrem frequentemente de contaminação de dados e flexibilidade limitada. Para mitigar isto, propomos o World2Minecraft para converter cenas do mundo real em ambientes estruturados do Minecraft com base na previsão de ocupação semântica 3D. Nas cenas reconstruídas, podemos realizar facilmente tarefas subsequentes, como a Navegação Visão-Linguagem (VLN). No entanto, observamos que a qualidade da reconstrução depende fortemente de uma previsão precisa de ocupação, que continua limitada pela escassez de dados e pela fraca generalização nos modelos existentes. Introduzimos um pipeline de aquisição de dados automatizado, escalável e de baixo custo para criar conjuntos de dados de ocupação personalizados, e demonstramos a sua eficácia através do MinecraftOcc, um conjunto de dados de larga escala que inclui 100.165 imagens de 156 cenas interiores ricamente detalhadas. Experiências extensivas mostram que o nosso conjunto de dados fornece um complemento crucial aos conjuntos de dados existentes e representa um desafio significativo para os métodos atuais de estado da arte (SOTA). Estas descobertas contribuem para melhorar a previsão de ocupação e destacam o valor do World2Minecraft ao fornecer uma plataforma personalizável e editável para pesquisa personalizada em IA incorporada. Página do projeto: https://world2minecraft.github.io/.
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.
PDF21May 2, 2026