InternScenes : Un vaste ensemble de données de scènes intérieures simulables avec des agencements réalistes
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
September 13, 2025
papers.authors: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI
papers.abstract
Le progrès de l'IA incarnée repose fortement sur des ensembles de données de scènes 3D simulables à grande échelle, caractérisés par une diversité de scènes et des agencements réalistes. Cependant, les ensembles de données existants souffrent généralement de limitations en termes d'échelle ou de diversité des données, d'agencements aseptisés manquant de petits objets, et de collisions sévères entre objets. Pour remédier à ces lacunes, nous présentons InternScenes, un nouvel ensemble de données de scènes intérieures simulables à grande échelle, comprenant environ 40 000 scènes diversifiées en intégrant trois sources de scènes distinctes : des scans du monde réel, des scènes générées de manière procédurale et des scènes créées par des designers, incluant 1,96 million d'objets 3D et couvrant 15 types de scènes courants et 288 classes d'objets. Nous préservons particulièrement un grand nombre de petits objets dans les scènes, résultant en des agencements réalistes et complexes avec une moyenne de 41,5 objets par région. Notre pipeline de traitement de données complet assure la simulabilité en créant des répliques réel-vers-sim pour les scans du monde réel, améliore l'interactivité en incorporant des objets interactifs dans ces scènes, et résout les collisions d'objets par des simulations physiques. Nous démontrons la valeur d'InternScènes avec deux applications de référence : la génération d'agencements de scènes et la navigation vers un point cible. Les deux montrent les nouveaux défis posés par les agencements complexes et réalistes. Plus important encore, InternScènes ouvre la voie à la montée en échelle de l'entraînement des modèles pour ces deux tâches, rendant possible la génération et la navigation dans de telles scènes complexes. Nous nous engageons à ouvrir les données, les modèles et les benchmarks pour bénéficier à toute la communauté.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D
scene datasets characterized by scene diversity and realistic layouts. However,
existing datasets typically suffer from limitations in data scale or diversity,
sanitized layouts lacking small items, and severe object collisions. To address
these shortcomings, we introduce InternScenes, a novel large-scale
simulatable indoor scene dataset comprising approximately 40,000 diverse scenes
by integrating three disparate scene sources, real-world scans, procedurally
generated scenes, and designer-created scenes, including 1.96M 3D objects and
covering 15 common scene types and 288 object classes. We particularly preserve
massive small items in the scenes, resulting in realistic and complex layouts
with an average of 41.5 objects per region. Our comprehensive data processing
pipeline ensures simulatability by creating real-to-sim replicas for real-world
scans, enhances interactivity by incorporating interactive objects into these
scenes, and resolves object collisions by physical simulations. We demonstrate
the value of InternScenes with two benchmark applications: scene layout
generation and point-goal navigation. Both show the new challenges posed by the
complex and realistic layouts. More importantly, InternScenes paves the way for
scaling up the model training for both tasks, making the generation and
navigation in such complex scenes possible. We commit to open-sourcing the
data, models, and benchmarks to benefit the whole community.