InternScenes: Un conjunto de datos a gran escala de escenas interiores simulables con diseños realistas
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
September 13, 2025
Autores: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI
Resumen
El avance de la IA Embodied depende en gran medida de conjuntos de datos de escenas 3D simulables a gran escala, caracterizados por la diversidad de escenas y diseños realistas. Sin embargo, los conjuntos de datos existentes suelen presentar limitaciones en la escala o diversidad de los datos, diseños simplificados que carecen de objetos pequeños y colisiones severas entre objetos. Para abordar estas deficiencias, presentamos InternScenes, un novedoso conjunto de datos de escenas interiores simulables a gran escala que comprende aproximadamente 40,000 escenas diversas, integrando tres fuentes de escenas distintas: escaneos del mundo real, escenas generadas proceduralmente y escenas creadas por diseñadores, incluyendo 1.96 millones de objetos 3D y cubriendo 15 tipos de escenas comunes y 288 clases de objetos. Particularmente, preservamos una gran cantidad de objetos pequeños en las escenas, lo que resulta en diseños realistas y complejos con un promedio de 41.5 objetos por región. Nuestra completa pipeline de procesamiento de datos garantiza la simulabilidad al crear réplicas realistas para los escaneos del mundo real, mejora la interactividad al incorporar objetos interactivos en estas escenas y resuelve las colisiones de objetos mediante simulaciones físicas. Demostramos el valor de InternScenes con dos aplicaciones de referencia: generación de diseño de escenas y navegación hacia un punto objetivo. Ambas muestran los nuevos desafíos planteados por los diseños complejos y realistas. Más importante aún, InternScenes allana el camino para escalar el entrenamiento de modelos para ambas tareas, haciendo posible la generación y navegación en escenas tan complejas. Nos comprometemos a liberar los datos, modelos y benchmarks como código abierto para beneficiar a toda la comunidad.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D
scene datasets characterized by scene diversity and realistic layouts. However,
existing datasets typically suffer from limitations in data scale or diversity,
sanitized layouts lacking small items, and severe object collisions. To address
these shortcomings, we introduce InternScenes, a novel large-scale
simulatable indoor scene dataset comprising approximately 40,000 diverse scenes
by integrating three disparate scene sources, real-world scans, procedurally
generated scenes, and designer-created scenes, including 1.96M 3D objects and
covering 15 common scene types and 288 object classes. We particularly preserve
massive small items in the scenes, resulting in realistic and complex layouts
with an average of 41.5 objects per region. Our comprehensive data processing
pipeline ensures simulatability by creating real-to-sim replicas for real-world
scans, enhances interactivity by incorporating interactive objects into these
scenes, and resolves object collisions by physical simulations. We demonstrate
the value of InternScenes with two benchmark applications: scene layout
generation and point-goal navigation. Both show the new challenges posed by the
complex and realistic layouts. More importantly, InternScenes paves the way for
scaling up the model training for both tasks, making the generation and
navigation in such complex scenes possible. We commit to open-sourcing the
data, models, and benchmarks to benefit the whole community.