InternScenes: Um Conjunto de Dados de Cenas Internas em Grande Escala com Layouts Realistas e Simuláveis
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
September 13, 2025
Autores: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI
Resumo
O avanço da IA Embarcada depende fortemente de conjuntos de dados de cenas 3D simuláveis em grande escala, caracterizados pela diversidade de cenas e layouts realistas. No entanto, os conjuntos de dados existentes geralmente sofrem com limitações na escala ou diversidade dos dados, layouts sanitizados que carecem de itens pequenos e colisões severas entre objetos. Para abordar essas deficiências, apresentamos o InternScenes, um novo conjunto de dados de cenas internas simuláveis em grande escala, composto por aproximadamente 40.000 cenas diversas, integrando três fontes distintas de cenas: varreduras do mundo real, cenas geradas proceduralmente e cenas criadas por designers, incluindo 1,96 milhão de objetos 3D e abrangendo 15 tipos comuns de cenas e 288 classes de objetos. Preservamos especialmente uma grande quantidade de itens pequenos nas cenas, resultando em layouts realistas e complexos, com uma média de 41,5 objetos por região. Nosso pipeline abrangente de processamento de dados garante a simulabilidade ao criar réplicas realistas para varreduras do mundo real, aumenta a interatividade ao incorporar objetos interativos nessas cenas e resolve colisões de objetos por meio de simulações físicas. Demonstramos o valor do InternScenes com duas aplicações de referência: geração de layout de cenas e navegação por ponto de destino. Ambas mostram os novos desafios impostos pelos layouts complexos e realistas. Mais importante ainda, o InternScenes abre caminho para ampliar o treinamento de modelos para ambas as tarefas, tornando possível a geração e navegação em cenas tão complexas. Comprometemo-nos a disponibilizar os dados, modelos e benchmarks em código aberto para beneficiar toda a comunidade.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D
scene datasets characterized by scene diversity and realistic layouts. However,
existing datasets typically suffer from limitations in data scale or diversity,
sanitized layouts lacking small items, and severe object collisions. To address
these shortcomings, we introduce InternScenes, a novel large-scale
simulatable indoor scene dataset comprising approximately 40,000 diverse scenes
by integrating three disparate scene sources, real-world scans, procedurally
generated scenes, and designer-created scenes, including 1.96M 3D objects and
covering 15 common scene types and 288 object classes. We particularly preserve
massive small items in the scenes, resulting in realistic and complex layouts
with an average of 41.5 objects per region. Our comprehensive data processing
pipeline ensures simulatability by creating real-to-sim replicas for real-world
scans, enhances interactivity by incorporating interactive objects into these
scenes, and resolves object collisions by physical simulations. We demonstrate
the value of InternScenes with two benchmark applications: scene layout
generation and point-goal navigation. Both show the new challenges posed by the
complex and realistic layouts. More importantly, InternScenes paves the way for
scaling up the model training for both tasks, making the generation and
navigation in such complex scenes possible. We commit to open-sourcing the
data, models, and benchmarks to benefit the whole community.