ChatPaper.aiChatPaper

InternScenes: 현실적인 레이아웃을 갖춘 대규모 시뮬레이션 가능한 실내 장면 데이터셋

InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

September 13, 2025
저자: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
cs.AI

초록

구현된 AI(Embodied AI)의 발전은 장면 다양성과 현실적인 레이아웃을 특징으로 하는 대규모 시뮬레이션 가능한 3D 장면 데이터셋에 크게 의존합니다. 그러나 기존 데이터셋은 일반적으로 데이터 규모나 다양성의 한계, 소품이 부족한 단순화된 레이아웃, 심각한 객체 충돌 문제를 겪고 있습니다. 이러한 단점을 해결하기 위해, 우리는 InternScenes라는 새로운 대규모 시뮬레이션 가능한 실내 장면 데이터셋을 소개합니다. 이 데이터셋은 세 가지 다른 장면 소스(실제 스캔, 절차적 생성 장면, 디자이너 제작 장면)를 통합하여 약 40,000개의 다양한 장면으로 구성되며, 196만 개의 3D 객체를 포함하고 15개의 일반적인 장면 유형과 288개의 객체 클래스를 다룹니다. 특히, 우리는 장면 내에 대량의 소품을 보존하여, 평균적으로 한 영역당 41.5개의 객체가 있는 현실적이고 복잡한 레이아웃을 구현했습니다. 우리의 포괄적인 데이터 처리 파이프라인은 실제 스캔에 대해 실시간 시뮬레이션 복제본을 생성하여 시뮬레이션 가능성을 보장하고, 이러한 장면에 상호작용 가능한 객체를 포함시켜 상호작용성을 강화하며, 물리적 시뮬레이션을 통해 객체 충돌을 해결합니다. 우리는 InternScenes의 가치를 장면 레이아웃 생성과 포인트 목표 탐색이라는 두 가지 벤치마크 애플리케이션을 통해 입증합니다. 둘 다 복잡하고 현실적인 레이아웃이 제기하는 새로운 도전 과제를 보여줍니다. 더 중요한 것은, InternScenes가 이러한 복잡한 장면에서의 생성과 탐색을 가능하게 하기 위해 두 작업 모두에 대한 모델 훈련을 확장할 수 있는 길을 열어준다는 점입니다. 우리는 데이터, 모델, 벤치마크를 오픈소스로 공개하여 전체 커뮤니티에 이바지할 것을 약속합니다.
English
The advancement of Embodied AI heavily relies on large-scale, simulatable 3D scene datasets characterized by scene diversity and realistic layouts. However, existing datasets typically suffer from limitations in data scale or diversity, sanitized layouts lacking small items, and severe object collisions. To address these shortcomings, we introduce InternScenes, a novel large-scale simulatable indoor scene dataset comprising approximately 40,000 diverse scenes by integrating three disparate scene sources, real-world scans, procedurally generated scenes, and designer-created scenes, including 1.96M 3D objects and covering 15 common scene types and 288 object classes. We particularly preserve massive small items in the scenes, resulting in realistic and complex layouts with an average of 41.5 objects per region. Our comprehensive data processing pipeline ensures simulatability by creating real-to-sim replicas for real-world scans, enhances interactivity by incorporating interactive objects into these scenes, and resolves object collisions by physical simulations. We demonstrate the value of InternScenes with two benchmark applications: scene layout generation and point-goal navigation. Both show the new challenges posed by the complex and realistic layouts. More importantly, InternScenes paves the way for scaling up the model training for both tasks, making the generation and navigation in such complex scenes possible. We commit to open-sourcing the data, models, and benchmarks to benefit the whole community.
PDF302September 16, 2025