InternScenes: Un ampio dataset di scene interne simulabili con layout realistici
InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
September 13, 2025
Autori: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI
Abstract
Il progresso dell'Embodied AI dipende fortemente da dataset di scene 3D su larga scala e simulabili, caratterizzati da diversità delle scene e layout realistici. Tuttavia, i dataset esistenti presentano tipicamente limitazioni nella scala o nella diversità dei dati, layout eccessivamente semplificati privi di oggetti di piccole dimensioni e gravi collisioni tra oggetti. Per affrontare queste carenze, introduciamo InternScenes, un nuovo dataset di scene interne simulabili su larga scala, composto da circa 40.000 scene diverse, integrando tre fonti di scene distinte: scansioni del mondo reale, scene generate proceduralmente e scene create da designer, comprendenti 1,96 milioni di oggetti 3D e coprendo 15 tipi di scene comuni e 288 classi di oggetti. Abbiamo particolarmente preservato un gran numero di oggetti di piccole dimensioni nelle scene, ottenendo layout realistici e complessi con una media di 41,5 oggetti per regione. La nostra pipeline di elaborazione dati completa garantisce la simulabilità creando repliche real-to-sim per le scansioni del mondo reale, migliora l'interattività incorporando oggetti interattivi in queste scene e risolve le collisioni tra oggetti attraverso simulazioni fisiche. Dimostriamo il valore di InternScenes con due applicazioni benchmark: la generazione del layout delle scene e la navigazione verso un punto-obiettivo. Entrambe mostrano le nuove sfide poste dai layout complessi e realistici. Ancora più importante, InternScenes apre la strada per scalare l'addestramento dei modelli per entrambi i compiti, rendendo possibile la generazione e la navigazione in scene così complesse. Ci impegniamo a rendere open-source i dati, i modelli e i benchmark per beneficiare l'intera comunità.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D
scene datasets characterized by scene diversity and realistic layouts. However,
existing datasets typically suffer from limitations in data scale or diversity,
sanitized layouts lacking small items, and severe object collisions. To address
these shortcomings, we introduce InternScenes, a novel large-scale
simulatable indoor scene dataset comprising approximately 40,000 diverse scenes
by integrating three disparate scene sources, real-world scans, procedurally
generated scenes, and designer-created scenes, including 1.96M 3D objects and
covering 15 common scene types and 288 object classes. We particularly preserve
massive small items in the scenes, resulting in realistic and complex layouts
with an average of 41.5 objects per region. Our comprehensive data processing
pipeline ensures simulatability by creating real-to-sim replicas for real-world
scans, enhances interactivity by incorporating interactive objects into these
scenes, and resolves object collisions by physical simulations. We demonstrate
the value of InternScenes with two benchmark applications: scene layout
generation and point-goal navigation. Both show the new challenges posed by the
complex and realistic layouts. More importantly, InternScenes paves the way for
scaling up the model training for both tasks, making the generation and
navigation in such complex scenes possible. We commit to open-sourcing the
data, models, and benchmarks to benefit the whole community.