ChatPaper.aiChatPaper

InternScenes: Een grootschalige, simuleerbare dataset van binnenruimtes met realistische indelingen

InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

September 13, 2025
Auteurs: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI

Samenvatting

De vooruitgang van Embodied AI is sterk afhankelijk van grootschalige, simuleerbare 3D-scenedatasets die worden gekenmerkt door scènediversiteit en realistische indelingen. Bestaande datasets kampen echter doorgaans met beperkingen in dataschaal of diversiteit, gesaneerde indelingen die kleine objecten missen, en ernstige objectbotsingen. Om deze tekortkomingen aan te pakken, introduceren we InternScenes, een nieuwe grootschalige simuleerbare dataset voor binnenruimtes die ongeveer 40.000 diverse scènes omvat door drie verschillende scènebronnen te integreren: real-world scans, procedureel gegenereerde scènes en door ontwerpers gemaakte scènes, inclusief 1,96 miljoen 3D-objecten en 15 veelvoorkomende scènetypen en 288 objectklassen. We hebben specifiek een groot aantal kleine objecten in de scènes behouden, wat resulteert in realistische en complexe indelingen met gemiddeld 41,5 objecten per regio. Onze uitgebreide dataverwerkingspipeline zorgt voor simuleerbaarheid door real-to-sim replica's te maken voor real-world scans, verbetert de interactiviteit door interactieve objecten in deze scènes op te nemen, en lost objectbotsingen op door middel van fysieke simulaties. We demonstreren de waarde van InternScenes met twee benchmarktoepassingen: scène-indelingsgeneratie en puntdoelnavigatie. Beide tonen de nieuwe uitdagingen die worden opgeworpen door de complexe en realistische indelingen. Belangrijker nog, InternScenes effent de weg voor het opschalen van modeltraining voor beide taken, waardoor generatie en navigatie in dergelijke complexe scènes mogelijk worden. We zijn vastbesloten om de data, modellen en benchmarks open source te maken ten behoeve van de hele gemeenschap.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D scene datasets characterized by scene diversity and realistic layouts. However, existing datasets typically suffer from limitations in data scale or diversity, sanitized layouts lacking small items, and severe object collisions. To address these shortcomings, we introduce InternScenes, a novel large-scale simulatable indoor scene dataset comprising approximately 40,000 diverse scenes by integrating three disparate scene sources, real-world scans, procedurally generated scenes, and designer-created scenes, including 1.96M 3D objects and covering 15 common scene types and 288 object classes. We particularly preserve massive small items in the scenes, resulting in realistic and complex layouts with an average of 41.5 objects per region. Our comprehensive data processing pipeline ensures simulatability by creating real-to-sim replicas for real-world scans, enhances interactivity by incorporating interactive objects into these scenes, and resolves object collisions by physical simulations. We demonstrate the value of InternScenes with two benchmark applications: scene layout generation and point-goal navigation. Both show the new challenges posed by the complex and realistic layouts. More importantly, InternScenes paves the way for scaling up the model training for both tasks, making the generation and navigation in such complex scenes possible. We commit to open-sourcing the data, models, and benchmarks to benefit the whole community.
PDF302September 16, 2025