ChatPaper.aiChatPaper

World2Minecraft: Построение сцен в симуляции на основе заполненности пространства

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

April 30, 2026
Авторы: Lechao Zhang, Haoran Xu, Jingyu Gong, Xuhong Wang, Yuan Xie, Xin Tan
cs.AI

Аннотация

Осуществление интеллекта в виртуальных агентах требует высокоточной симуляции для поддержки восприятия и принятия решений, однако существующие платформы часто страдают от проблем с качеством данных и ограниченной гибкостью. Для решения этой проблемы мы предлагаем метод World2Minecraft, преобразующий сцены реального мира в структурированные среды Minecraft на основе предсказания 3D семантической оккупации. В реконструированных сценах мы можем легко выполнять последующие задачи, такие как навигация с помощью зрения и языка (Vision-Language Navigation, VLN). Однако мы наблюдаем, что качество реконструкции сильно зависит от точности предсказания оккупации, которое остается ограниченным из-за недостатка данных и слабой обобщающей способности существующих моделей. Мы представляем низкозатратный, автоматизированный и масштабируемый конвейер сбора данных для создания специализированных наборов данных по оккупации и демонстрируем его эффективность на примере MinecraftOcc — крупномасштабного набора данных, содержащего 100 165 изображений из 156 детализированных интерьерных сцен. Многочисленные эксперименты показывают, что наш набор данных является важным дополнением к существующим и представляет серьезную проблему для современных передовых методов (SOTA). Эти результаты способствуют улучшению предсказания оккупации и подчеркивают ценность World2Minecraft как настраиваемой и редактируемой платформы для персонализированных исследований в области воплощенного ИИ. Страница проекта: https://world2minecraft.github.io/.
English
Embodied intelligence requires high-fidelity simulation environments to support perception and decision-making, yet existing platforms often suffer from data contamination and limited flexibility. To mitigate this, we propose World2Minecraft to convert real-world scenes into structured Minecraft environments based on 3D semantic occupancy prediction. In the reconstructed scenes, we can effortlessly perform downstream tasks such as Vision-Language Navigation(VLN). However, we observe that reconstruction quality heavily depends on accurate occupancy prediction, which remains limited by data scarcity and poor generalization in existing models. We introduce a low-cost, automated, and scalable data acquisition pipeline for creating customized occupancy datasets, and demonstrate its effectiveness through MinecraftOcc, a large-scale dataset featuring 100,165 images from 156 richly detailed indoor scenes. Extensive experiments show that our dataset provides a critical complement to existing datasets and poses a significant challenge to current SOTA methods. These findings contribute to improving occupancy prediction and highlight the value of World2Minecraft in providing a customizable and editable platform for personalized embodied AI research. Project page:https://world2minecraft.github.io/.
PDF21May 2, 2026