Stream3D-VLM: Compreensão Espacial 3D Online com Priores Geométricos Incrementais

Resumo

Apesar dos avanços na compreensão de cenas 3D, os modelos multimodais grandes 3D existentes operam em configurações offline, exigindo observações completas da cena ou clipes de vídeo predefinidos. Neste artigo, apresentamos um modelo de visão-linguagem 3D online que possibilita a compreensão espacial em tempo real a partir de vídeo em streaming. Nossa abordagem adota uma modelagem de controle de streaming autorregressivo baseada no objetivo de predição do próximo token do LLM para aprender quando responder, e emprega um módulo leve de Integração de Características Visuo-Espaciais (VSFI) para injetar incrementalmente priores geométricos alinhados temporalmente no fluxo visual. Para aliviar a sobrecarga de decodificação de contexto longo, propomos um módulo de Compressão de Voxels Adaptável à Geometria (GAVC), do tipo plug-and-play, para compressão eficiente de tokens visuais. Para lidar com a escassez de dados 3D-linguagem em streaming, desenvolvemos ainda um pipeline de geração de dados escalável que seleciona mais de 1 milhão de pares de perguntas e respostas 3D espaço-temporais online e estabelece um benchmark abrangente cobrindo 29 tarefas. Experimentos extensivos mostram que nossa abordagem supera significativamente modelos proprietários e de código aberto em tarefas de compreensão, raciocínio e ancoragem espacial 3D online e offline. A página do projeto está disponível em https://stream3d-vlm.github.io/.

English

Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, requiring complete scene observations or predefined video clips. In this paper, we present an online 3D vision-language model that enables real-time spatial understanding from streaming video. Our approach adopts an autoregressive streaming control modeling based on the LLM's next-token prediction objective to learn when to respond, and employs a lightweight Visual-Spatial Feature Integration (VSFI) module to incrementally inject temporally aligned geometry priors into the visual stream. To alleviate long-context decoding overhead, we propose a plug-and-play Geometry-Adaptive Voxel Compression (GAVC) module for efficient visual token compression. To address the scarcity of streaming 3D-language data, we further develop a scalable data generation pipeline that curates over 1M online spatio-temporal 3D QA pairs and establishes a comprehensive benchmark spanning 29 tasks. Extensive experiments show that our approach significantly outperforms both proprietary and open-source models across online and offline 3D spatial understanding, reasoning, and grounding tasks. The project page is available at https://stream3d-vlm.github.io/