ChatPaper.aiChatPaper

공간 지능 구축: 자율 시스템을 위한 다중 모달 데이터 사전 훈련 로드맵

Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

December 30, 2025
저자: Song Wang, Lingdong Kong, Xiaolu Liu, Hao Shi, Wentong Li, Jianke Zhu, Steven C. H. Hoi
cs.AI

초록

자율주행 차량과 드론을 포함한 자율 시스템의 급속한 발전으로, 다중 모달 온보드 센서 데이터에서 진정한 공간 지능을 구축할 필요성이 더욱 부각되고 있습니다. 파운데이션 모델은 단일 모달 환경에서는 뛰어난 성능을 보이지만, 카메라와 LiDAR와 같은 다양한 센서 간의 능력을 통합하여 통합된 이해를 생성하는 것은 여전히 난제로 남아 있습니다. 본 논문은 다중 모달 사전 학습을 위한 포괄적인 프레임워크를 제시하며, 이 목표를 향한 진전을 주도하는 핵심 기술들을 규명합니다. 우리는 기본적인 센서 특성과 학습 전략 간의 상호작용을 분석하고, 이러한 발전을 가능하게 하는 플랫폼별 데이터셋의 역할을 평가합니다. 우리의 주요 기여는 사전 학습 패러다임에 대한 통합 분류 체계를 정립한 것입니다. 이는 단일 모달리티 기준 모델부터 3D 객체 감지 및 의미론적 점유율 예측과 같은 고급 작업을 위한 전체론적 표현을 학습하는 정교한 통합 프레임워크에 이르기까지 그 범위를涵盖합니다. 나아가, 개방형 세계 인식 및 계획을 용이하게 하기 위해 텍스트 입력과 점유율 표현의 통합을 탐구합니다. 마지막으로, 계산 효율성 및 모델 확장성과 같은 중요한 병목 현상을 지적하고, 현실 세계 배치를 위한 강력한 공간 지능을 달성할 수 있는 범용 다중 모달 파운데이션 모델을 향한 로드맵을 제안합니다.
English
The rapid advancement of autonomous systems, including self-driving vehicles and drones, has intensified the need to forge true Spatial Intelligence from multi-modal onboard sensor data. While foundation models excel in single-modal contexts, integrating their capabilities across diverse sensors like cameras and LiDAR to create a unified understanding remains a formidable challenge. This paper presents a comprehensive framework for multi-modal pre-training, identifying the core set of techniques driving progress toward this goal. We dissect the interplay between foundational sensor characteristics and learning strategies, evaluating the role of platform-specific datasets in enabling these advancements. Our central contribution is the formulation of a unified taxonomy for pre-training paradigms: ranging from single-modality baselines to sophisticated unified frameworks that learn holistic representations for advanced tasks like 3D object detection and semantic occupancy prediction. Furthermore, we investigate the integration of textual inputs and occupancy representations to facilitate open-world perception and planning. Finally, we identify critical bottlenecks, such as computational efficiency and model scalability, and propose a roadmap toward general-purpose multi-modal foundation models capable of achieving robust Spatial Intelligence for real-world deployment.
PDF41January 2, 2026