InternScenes: Масштабный набор данных симулируемых внутренних сцен с реалистичной планировкой
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
September 13, 2025
Авторы: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI
Аннотация
Развитие воплощённого искусственного интеллекта (Embodied AI) в значительной степени зависит от крупномасштабных, симулируемых наборов данных 3D-сцен, характеризующихся разнообразием сцен и реалистичными компоновками. Однако существующие наборы данных обычно страдают от ограничений в масштабе или разнообразии данных, стерилизованных компоновок, лишённых мелких объектов, и серьёзных столкновений объектов. Чтобы устранить эти недостатки, мы представляем InternScenes — новый крупномасштабный симулируемый набор данных для внутренних сцен, включающий около 40 000 разнообразных сцен, созданных путём интеграции трёх различных источников сцен: сканирований реального мира, процедурно сгенерированных сцен и сцен, созданных дизайнерами. Набор данных содержит 1,96 млн 3D-объектов и охватывает 15 распространённых типов сцен и 288 классов объектов. Мы особенно уделили внимание сохранению множества мелких объектов в сценах, что привело к реалистичным и сложным компоновкам со средним количеством 41,5 объектов на регион. Наш комплексный конвейер обработки данных обеспечивает симулируемость, создавая реплики "реальное-в-симуляции" для сканирований реального мира, повышает интерактивность за счёт включения интерактивных объектов в эти сцены и устраняет столкновения объектов с помощью физических симуляций. Мы демонстрируем ценность InternScenes на двух эталонных задачах: генерации компоновки сцен и навигации к целевой точке. Обе задачи показывают новые вызовы, связанные с сложными и реалистичными компоновками. Более того, InternScenes прокладывает путь для масштабирования обучения моделей для обеих задач, делая возможными генерацию и навигацию в таких сложных сценах. Мы обязуемся открыть исходный код данных, моделей и эталонных тестов для пользы всего сообщества.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D
scene datasets characterized by scene diversity and realistic layouts. However,
existing datasets typically suffer from limitations in data scale or diversity,
sanitized layouts lacking small items, and severe object collisions. To address
these shortcomings, we introduce InternScenes, a novel large-scale
simulatable indoor scene dataset comprising approximately 40,000 diverse scenes
by integrating three disparate scene sources, real-world scans, procedurally
generated scenes, and designer-created scenes, including 1.96M 3D objects and
covering 15 common scene types and 288 object classes. We particularly preserve
massive small items in the scenes, resulting in realistic and complex layouts
with an average of 41.5 objects per region. Our comprehensive data processing
pipeline ensures simulatability by creating real-to-sim replicas for real-world
scans, enhances interactivity by incorporating interactive objects into these
scenes, and resolves object collisions by physical simulations. We demonstrate
the value of InternScenes with two benchmark applications: scene layout
generation and point-goal navigation. Both show the new challenges posed by the
complex and realistic layouts. More importantly, InternScenes paves the way for
scaling up the model training for both tasks, making the generation and
navigation in such complex scenes possible. We commit to open-sourcing the
data, models, and benchmarks to benefit the whole community.