空間知能の鍛錬:自律システムのためのマルチモーダルデータ事前学習ロードマップ
Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems
December 30, 2025
著者: Song Wang, Lingdong Kong, Xiaolu Liu, Hao Shi, Wentong Li, Jianke Zhu, Steven C. H. Hoi
cs.AI
要旨
自律走行車やドローンを含む自律システムの急速な進展に伴い、マルチモーダルな搭載センサーデータから真の空間知能を構築する必要性が高まっている。基盤モデルは単一モダリティの文脈では優れた性能を発揮するものの、カメラやLiDARといった多様なセンサー間で能力を統合し、統一的な理解を創出することは依然として困難な課題である。本論文は、この目標に向けた進歩を推進する中核的技術群を特定し、マルチモーダル事前学習の包括的フレームワークを提示する。我々は、基本的なセンサー特性と学習戦略の相互作用を分析し、これらの進歩を可能にするプラットフォーム固有データセットの役割を評価する。主な貢献は、事前学習パラダイムの統一的分類体系の確立である:単一モダリティのベースラインから、3D物体検出やセマンティック占有予測といった高度なタスクのための統合的な表現を学習する洗練された統一フレームワークまでを含む。さらに、オープンワールド知覚と計画を促進するためのテキスト入力と占有表現の統合について検討する。最後に、計算効率やモデルの拡張性といった重大なボトルネックを特定し、実世界での展開に耐える堅牢な空間知能を実現する汎用マルチモーダル基盤モデルへのロードマップを提案する。
English
The rapid advancement of autonomous systems, including self-driving vehicles and drones, has intensified the need to forge true Spatial Intelligence from multi-modal onboard sensor data. While foundation models excel in single-modal contexts, integrating their capabilities across diverse sensors like cameras and LiDAR to create a unified understanding remains a formidable challenge. This paper presents a comprehensive framework for multi-modal pre-training, identifying the core set of techniques driving progress toward this goal. We dissect the interplay between foundational sensor characteristics and learning strategies, evaluating the role of platform-specific datasets in enabling these advancements. Our central contribution is the formulation of a unified taxonomy for pre-training paradigms: ranging from single-modality baselines to sophisticated unified frameworks that learn holistic representations for advanced tasks like 3D object detection and semantic occupancy prediction. Furthermore, we investigate the integration of textual inputs and occupancy representations to facilitate open-world perception and planning. Finally, we identify critical bottlenecks, such as computational efficiency and model scalability, and propose a roadmap toward general-purpose multi-modal foundation models capable of achieving robust Spatial Intelligence for real-world deployment.