Stream3D-VLM: Online 3D-ruimtelijk begrip met incrementele geometrische priors

Samenvatting

Ondanks vooruitgang in 3D-scènebegrip werken bestaande 3D-grote multimodale modellen in offline omgevingen, waarbij volledige scèneobservaties of vooraf gedefinieerde videoclips vereist zijn. In dit artikel presenteren we een online 3D-visie-taalmodel dat real-time ruimtelijk begrip mogelijk maakt vanuit streaming video. Onze aanpak hanteert een autoregressieve streaming control modellering gebaseerd op de next-token predictiedoelstelling van de LLM om te leren wanneer te reageren, en maakt gebruik van een lichtgewicht Visual-Spatial Feature Integration (VSFI)-module om stapsgewijs temporeel uitgelijnde geometriepriori's in de visuele stroom te injecteren. Om de overhead van decoderen met lange context te verlichten, stellen we een plug-and-play Geometry-Adaptive Voxel Compression (GAVC)-module voor voor efficiënte compressie van visuele tokens. Om de schaarste aan streaming 3D-taaldat aan te pakken, ontwikkelen we verder een schaalbare datageneratiepijplijn die meer dan 1M online spatio-temporele 3D QA-paren samenstelt en een uitgebreide benchmark opzet die 29 taken omvat. Uitgebreide experimenten tonen aan dat onze aanpak zowel propriëtaire als open-source modellen aanzienlijk overtreft op het gebied van online en offline 3D-ruimtelijk begrip, redeneren en grounding taken. De projectpagina is beschikbaar op https://stream3d-vlm.github.io/

English

Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, requiring complete scene observations or predefined video clips. In this paper, we present an online 3D vision-language model that enables real-time spatial understanding from streaming video. Our approach adopts an autoregressive streaming control modeling based on the LLM's next-token prediction objective to learn when to respond, and employs a lightweight Visual-Spatial Feature Integration (VSFI) module to incrementally inject temporally aligned geometry priors into the visual stream. To alleviate long-context decoding overhead, we propose a plug-and-play Geometry-Adaptive Voxel Compression (GAVC) module for efficient visual token compression. To address the scarcity of streaming 3D-language data, we further develop a scalable data generation pipeline that curates over 1M online spatio-temporal 3D QA pairs and establishes a comprehensive benchmark spanning 29 tasks. Extensive experiments show that our approach significantly outperforms both proprietary and open-source models across online and offline 3D spatial understanding, reasoning, and grounding tasks. The project page is available at https://stream3d-vlm.github.io/