Stream3D-VLM: Comprensión espacial 3D en línea con priores geométricos incrementales

Resumen

A pesar de los avances en la comprensión de escenas 3D, los Grandes Modelos Multimodales 3D existentes operan en entornos fuera de línea, requiriendo observaciones completas de la escena o clips de video predefinidos. En este artículo, presentamos un modelo 3D de visión-lenguaje en línea que permite la comprensión espacial en tiempo real a partir de video en streaming. Nuestro enfoque adopta un modelado de control de streaming autorregresivo basado en el objetivo de predicción del siguiente token del LLM para aprender cuándo responder, y emplea un módulo ligero de Integración de Características Visual-Espacial (VSFI) para inyectar incrementalmente conocimientos geométricos alineados temporalmente en el flujo visual. Para aliviar la sobrecarga de decodificación de contexto largo, proponemos un módulo de Compresión de Vóxeles Adaptativa a la Geometría (GAVC) enchufable para la compresión eficiente de tokens visuales. Para abordar la escasez de datos de streaming 3D-lenguaje, desarrollamos además un pipeline de generación de datos escalable que compila más de 1 millón de pares de preguntas-respuesta 3D espacio-temporales en línea y establece un benchmark integral que abarca 29 tareas. Los experimentos exhaustivos muestran que nuestro enfoque supera significativamente tanto a los modelos propietarios como a los de código abierto en tareas de comprensión espacial 3D, razonamiento y anclaje tanto en línea como fuera de línea. La página del proyecto está disponible en https://stream3d-vlm.github.io/

English

Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, requiring complete scene observations or predefined video clips. In this paper, we present an online 3D vision-language model that enables real-time spatial understanding from streaming video. Our approach adopts an autoregressive streaming control modeling based on the LLM's next-token prediction objective to learn when to respond, and employs a lightweight Visual-Spatial Feature Integration (VSFI) module to incrementally inject temporally aligned geometry priors into the visual stream. To alleviate long-context decoding overhead, we propose a plug-and-play Geometry-Adaptive Voxel Compression (GAVC) module for efficient visual token compression. To address the scarcity of streaming 3D-language data, we further develop a scalable data generation pipeline that curates over 1M online spatio-temporal 3D QA pairs and establishes a comprehensive benchmark spanning 29 tasks. Extensive experiments show that our approach significantly outperforms both proprietary and open-source models across online and offline 3D spatial understanding, reasoning, and grounding tasks. The project page is available at https://stream3d-vlm.github.io/