ChatPaper.aiChatPaper

InternScenes: Un ampio dataset di scene interne simulabili con layout realistici

InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

September 13, 2025
Autori: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI

Abstract

Il progresso dell'Embodied AI dipende fortemente da dataset di scene 3D su larga scala e simulabili, caratterizzati da diversità delle scene e layout realistici. Tuttavia, i dataset esistenti presentano tipicamente limitazioni nella scala o nella diversità dei dati, layout eccessivamente semplificati privi di oggetti di piccole dimensioni e gravi collisioni tra oggetti. Per affrontare queste carenze, introduciamo InternScenes, un nuovo dataset di scene interne simulabili su larga scala, composto da circa 40.000 scene diverse, integrando tre fonti di scene distinte: scansioni del mondo reale, scene generate proceduralmente e scene create da designer, comprendenti 1,96 milioni di oggetti 3D e coprendo 15 tipi di scene comuni e 288 classi di oggetti. Abbiamo particolarmente preservato un gran numero di oggetti di piccole dimensioni nelle scene, ottenendo layout realistici e complessi con una media di 41,5 oggetti per regione. La nostra pipeline di elaborazione dati completa garantisce la simulabilità creando repliche real-to-sim per le scansioni del mondo reale, migliora l'interattività incorporando oggetti interattivi in queste scene e risolve le collisioni tra oggetti attraverso simulazioni fisiche. Dimostriamo il valore di InternScenes con due applicazioni benchmark: la generazione del layout delle scene e la navigazione verso un punto-obiettivo. Entrambe mostrano le nuove sfide poste dai layout complessi e realistici. Ancora più importante, InternScenes apre la strada per scalare l'addestramento dei modelli per entrambi i compiti, rendendo possibile la generazione e la navigazione in scene così complesse. Ci impegniamo a rendere open-source i dati, i modelli e i benchmark per beneficiare l'intera comunità.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D scene datasets characterized by scene diversity and realistic layouts. However, existing datasets typically suffer from limitations in data scale or diversity, sanitized layouts lacking small items, and severe object collisions. To address these shortcomings, we introduce InternScenes, a novel large-scale simulatable indoor scene dataset comprising approximately 40,000 diverse scenes by integrating three disparate scene sources, real-world scans, procedurally generated scenes, and designer-created scenes, including 1.96M 3D objects and covering 15 common scene types and 288 object classes. We particularly preserve massive small items in the scenes, resulting in realistic and complex layouts with an average of 41.5 objects per region. Our comprehensive data processing pipeline ensures simulatability by creating real-to-sim replicas for real-world scans, enhances interactivity by incorporating interactive objects into these scenes, and resolves object collisions by physical simulations. We demonstrate the value of InternScenes with two benchmark applications: scene layout generation and point-goal navigation. Both show the new challenges posed by the complex and realistic layouts. More importantly, InternScenes paves the way for scaling up the model training for both tasks, making the generation and navigation in such complex scenes possible. We commit to open-sourcing the data, models, and benchmarks to benefit the whole community.
PDF221September 16, 2025