Forjando Inteligencia Espacial: Una Hoja de Ruta del Preentrenamiento con Datos Multimodales para Sistemas Autónomos
Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems
December 30, 2025
Autores: Song Wang, Lingdong Kong, Xiaolu Liu, Hao Shi, Wentong Li, Jianke Zhu, Steven C. H. Hoi
cs.AI
Resumen
El rápido avance de los sistemas autónomos, incluidos los vehículos autónomos y los drones, ha intensificado la necesidad de forjar una verdadera Inteligencia Espacial a partir de datos multi-modales de sensores a bordo. Si bien los modelos fundacionales sobresalen en contextos mono-modales, integrar sus capacidades a través de diversos sensores como cámaras y LiDAR para crear una comprensión unificada sigue siendo un desafío formidable. Este artículo presenta un marco integral para el pre-entrenamiento multi-modal, identificando el conjunto central de técnicas que impulsan el progreso hacia este objetivo. Diseccionamos la interacción entre las características fundamentales de los sensores y las estrategias de aprendizaje, evaluando el papel de los conjuntos de datos específicos de la plataforma en la habilitación de estos avances. Nuestra contribución central es la formulación de una taxonomía unificada para los paradigmas de pre-entrenamiento: desde líneas de base de modalidad única hasta marcos unificados sofisticados que aprenden representaciones holísticas para tareas avanzadas como la detección de objetos 3D y la predicción de ocupación semántica. Además, investigamos la integración de entradas textuales y representaciones de ocupación para facilitar la percepción y planificación en mundo abierto. Finalmente, identificamos cuellos de botella críticos, como la eficiencia computacional y la escalabilidad del modelo, y proponemos una hoja de ruta hacia modelos fundacionales multi-modales de propósito general capaces de lograr una Inteligencia Espacial robusta para su implementación en el mundo real.
English
The rapid advancement of autonomous systems, including self-driving vehicles and drones, has intensified the need to forge true Spatial Intelligence from multi-modal onboard sensor data. While foundation models excel in single-modal contexts, integrating their capabilities across diverse sensors like cameras and LiDAR to create a unified understanding remains a formidable challenge. This paper presents a comprehensive framework for multi-modal pre-training, identifying the core set of techniques driving progress toward this goal. We dissect the interplay between foundational sensor characteristics and learning strategies, evaluating the role of platform-specific datasets in enabling these advancements. Our central contribution is the formulation of a unified taxonomy for pre-training paradigms: ranging from single-modality baselines to sophisticated unified frameworks that learn holistic representations for advanced tasks like 3D object detection and semantic occupancy prediction. Furthermore, we investigate the integration of textual inputs and occupancy representations to facilitate open-world perception and planning. Finally, we identify critical bottlenecks, such as computational efficiency and model scalability, and propose a roadmap toward general-purpose multi-modal foundation models capable of achieving robust Spatial Intelligence for real-world deployment.