Stream3D-VLM : Compréhension spatiale 3D en ligne avec des priors géométriques incrémentaux

Résumé

Malgré les avancées dans la compréhension de scènes 3D, les grands modèles multimodaux 3D existants fonctionnent dans des contextes hors ligne, nécessitant des observations complètes de la scène ou des clips vidéo prédéfinis. Dans cet article, nous présentons un modèle 3D vision-langage en ligne qui permet une compréhension spatiale en temps réel à partir de vidéos en continu. Notre approche adopte une modélisation de contrôle de flux autorégressif basée sur l'objectif de prédiction du jeton suivant du LLM pour apprendre quand répondre, et utilise un module léger d'Intégration de Caractéristiques Visuelles-Spatiales (VSFI) pour injecter de manière incrémentale des a priori géométriques alignés temporellement dans le flux visuel. Afin de réduire la surcharge de décodage en contexte long, nous proposons un module de Compression de Voxels Adaptative à la Géométrie (GAVC) prêt à l'emploi pour une compression efficace des jetons visuels. Pour remédier à la rareté des données 3D-langage en continu, nous développons en outre un pipeline de génération de données évolutif qui organise plus d'un million de paires de questions-réponses 3D spatio-temporelles en ligne et établit un benchmark complet couvrant 29 tâches. Des expériences approfondies montrent que notre approche surpasse significativement à la fois les modèles propriétaires et open-source dans les tâches de compréhension spatiale 3D, de raisonnement et d'ancrage, aussi bien en ligne qu'hors ligne. La page du projet est disponible à l'adresse https://stream3d-vlm.github.io/.

English

Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, requiring complete scene observations or predefined video clips. In this paper, we present an online 3D vision-language model that enables real-time spatial understanding from streaming video. Our approach adopts an autoregressive streaming control modeling based on the LLM's next-token prediction objective to learn when to respond, and employs a lightweight Visual-Spatial Feature Integration (VSFI) module to incrementally inject temporally aligned geometry priors into the visual stream. To alleviate long-context decoding overhead, we propose a plug-and-play Geometry-Adaptive Voxel Compression (GAVC) module for efficient visual token compression. To address the scarcity of streaming 3D-language data, we further develop a scalable data generation pipeline that curates over 1M online spatio-temporal 3D QA pairs and establishes a comprehensive benchmark spanning 29 tasks. Extensive experiments show that our approach significantly outperforms both proprietary and open-source models across online and offline 3D spatial understanding, reasoning, and grounding tasks. The project page is available at https://stream3d-vlm.github.io/