Forger l'intelligence spatiale : Feuille de route pour le pré-entraînement multimodal de données pour les systèmes autonomes
Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems
December 30, 2025
papers.authors: Song Wang, Lingdong Kong, Xiaolu Liu, Hao Shi, Wentong Li, Jianke Zhu, Steven C. H. Hoi
cs.AI
papers.abstract
Les progrès rapides des systèmes autonomes, incluant les véhicules autonomes et les drones, ont intensifié la nécessité de forger une véritable Intelligence Spatiale à partir de données multi-modales de capteurs embarqués. Bien que les modèles de fondation excellent dans des contextes unimodaux, l'intégration de leurs capacités à travers divers capteurs comme les caméras et le LiDAR pour créer une compréhension unifiée reste un défi de taille. Cet article présente un cadre complet pour le pré-entraînement multimodal, en identifiant l'ensemble fondamental des techniques qui propulsent les progrès vers cet objectif. Nous analysons l'interaction entre les caractéristiques fondamentales des capteurs et les stratégies d'apprentissage, en évaluant le rôle des jeux de données spécifiques aux plateformes dans l'activation de ces avancées. Notre contribution centrale est la formulation d'une taxinomie unifiée pour les paradigmes de pré-entraînement : allant des lignes de base unimodales aux cadres unifiés sophistiqués qui apprennent des représentations holistiques pour des tâches avancées comme la détection d'objets 3D et la prédiction d'occupation sémantique. De plus, nous étudions l'intégration d'entrées textuelles et de représentations d'occupation pour faciliter la perception et la planification en monde ouvert. Enfin, nous identifions des goulots d'étranglement critiques, tels que l'efficacité computationnelle et l'évolutivité des modèles, et proposons une feuille de route vers des modèles de fondation multimodaux polyvalents capables d'atteindre une Intelligence Spatiale robuste pour un déploiement réel.
English
The rapid advancement of autonomous systems, including self-driving vehicles and drones, has intensified the need to forge true Spatial Intelligence from multi-modal onboard sensor data. While foundation models excel in single-modal contexts, integrating their capabilities across diverse sensors like cameras and LiDAR to create a unified understanding remains a formidable challenge. This paper presents a comprehensive framework for multi-modal pre-training, identifying the core set of techniques driving progress toward this goal. We dissect the interplay between foundational sensor characteristics and learning strategies, evaluating the role of platform-specific datasets in enabling these advancements. Our central contribution is the formulation of a unified taxonomy for pre-training paradigms: ranging from single-modality baselines to sophisticated unified frameworks that learn holistic representations for advanced tasks like 3D object detection and semantic occupancy prediction. Furthermore, we investigate the integration of textual inputs and occupancy representations to facilitate open-world perception and planning. Finally, we identify critical bottlenecks, such as computational efficiency and model scalability, and propose a roadmap toward general-purpose multi-modal foundation models capable of achieving robust Spatial Intelligence for real-world deployment.