ChatPaper.aiChatPaper

InternScenes: Ein umfangreiches, simulierbares Indoor-Szenen-Datenset mit realistischen Raumaufteilungen

InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

September 13, 2025
papers.authors: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI

papers.abstract

Der Fortschritt von Embodied AI hängt stark von groß angelegten, simulierbaren 3D-Szenendatensätzen ab, die durch Szenenvielfalt und realistische Layouts gekennzeichnet sind. Allerdings leiden bestehende Datensätze typischerweise unter Einschränkungen in Bezug auf den Datenumfang oder die Vielfalt, sterilen Layouts, die kleine Gegenstände vermissen lassen, und schwerwiegenden Objektkollisionen. Um diese Mängel zu beheben, stellen wir InternScenes vor, einen neuartigen groß angelegten, simulierbaren Indoor-Szenendatensatz, der etwa 40.000 verschiedene Szenen umfasst, indem drei unterschiedliche Szenenquellen integriert werden: reale Scans, prozedural generierte Szenen und von Designern erstellte Szenen, einschließlich 1,96 Millionen 3D-Objekten und 15 gängigen Szenentypen sowie 288 Objektklassen. Wir bewahren insbesondere zahlreiche kleine Gegenstände in den Szenen, was zu realistischen und komplexen Layouts mit durchschnittlich 41,5 Objekten pro Region führt. Unsere umfassende Datenverarbeitungspipeline gewährleistet die Simulierbarkeit, indem sie Real-to-Sim-Replikate für reale Scans erstellt, die Interaktivität durch die Einbindung interaktiver Objekte in diese Szenen verbessert und Objektkollisionen durch physikalische Simulationen auflöst. Wir demonstrieren den Wert von InternScenes mit zwei Benchmark-Anwendungen: Szenenlayout-Generierung und Point-Goal-Navigation. Beide zeigen die neuen Herausforderungen, die durch die komplexen und realistischen Layouts entstehen. Noch wichtiger ist, dass InternScenes den Weg für die Skalierung des Modelltrainings für beide Aufgaben ebnet und die Generierung und Navigation in solch komplexen Szenen ermöglicht. Wir verpflichten uns, die Daten, Modelle und Benchmarks zu open-sourcen, um der gesamten Gemeinschaft zugutekommen.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D scene datasets characterized by scene diversity and realistic layouts. However, existing datasets typically suffer from limitations in data scale or diversity, sanitized layouts lacking small items, and severe object collisions. To address these shortcomings, we introduce InternScenes, a novel large-scale simulatable indoor scene dataset comprising approximately 40,000 diverse scenes by integrating three disparate scene sources, real-world scans, procedurally generated scenes, and designer-created scenes, including 1.96M 3D objects and covering 15 common scene types and 288 object classes. We particularly preserve massive small items in the scenes, resulting in realistic and complex layouts with an average of 41.5 objects per region. Our comprehensive data processing pipeline ensures simulatability by creating real-to-sim replicas for real-world scans, enhances interactivity by incorporating interactive objects into these scenes, and resolves object collisions by physical simulations. We demonstrate the value of InternScenes with two benchmark applications: scene layout generation and point-goal navigation. Both show the new challenges posed by the complex and realistic layouts. More importantly, InternScenes paves the way for scaling up the model training for both tasks, making the generation and navigation in such complex scenes possible. We commit to open-sourcing the data, models, and benchmarks to benefit the whole community.
PDF302September 16, 2025