Trasformatore di Geometria Visiva 4D in Streaming
Streaming 4D Visual Geometry Transformer
July 15, 2025
Autori: Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu
cs.AI
Abstract
Percepire e ricostruire la geometria spazio-temporale 4D dai video è un compito fondamentale ma impegnativo nel campo della visione artificiale. Per facilitare applicazioni interattive e in tempo reale, proponiamo un trasformatore di geometria visiva 4D in streaming che condivide una filosofia simile con i modelli linguistici autoregressivi di grandi dimensioni. Esploriamo un design semplice ed efficiente e impieghiamo un'architettura trasformatore causale per elaborare la sequenza di input in modo online. Utilizziamo l'attenzione causale temporale e memorizziamo le chiavi e i valori storici come memoria implicita per abilitare una ricostruzione 4D a lungo termine efficiente in streaming. Questo design è in grado di gestire la ricostruzione 4D in tempo reale integrando in modo incrementale le informazioni storiche, mantenendo al contempo un'elevata coerenza spaziale. Per un addestramento efficiente, proponiamo di distillare la conoscenza dal trasformatore di geometria visiva bidirezionale denso (VGGT) al nostro modello causale. Per l'inferenza, il nostro modello supporta la migrazione di operatori di attenzione efficienti ottimizzati (ad esempio, FlashAttention) dal campo dei modelli linguistici di grandi dimensioni. Esperimenti estesi su vari benchmark di percezione della geometria 4D dimostrano che il nostro modello aumenta la velocità di inferenza negli scenari online mantenendo prestazioni competitive, aprendo la strada a sistemi di visione 4D scalabili e interattivi. Il codice è disponibile all'indirizzo: https://github.com/wzzheng/StreamVGGT.
English
Perceiving and reconstructing 4D spatial-temporal geometry from videos is a
fundamental yet challenging computer vision task. To facilitate interactive and
real-time applications, we propose a streaming 4D visual geometry transformer
that shares a similar philosophy with autoregressive large language models. We
explore a simple and efficient design and employ a causal transformer
architecture to process the input sequence in an online manner. We use temporal
causal attention and cache the historical keys and values as implicit memory to
enable efficient streaming long-term 4D reconstruction. This design can handle
real-time 4D reconstruction by incrementally integrating historical information
while maintaining high-quality spatial consistency. For efficient training, we
propose to distill knowledge from the dense bidirectional visual geometry
grounded transformer (VGGT) to our causal model. For inference, our model
supports the migration of optimized efficient attention operator (e.g.,
FlashAttention) from the field of large language models. Extensive experiments
on various 4D geometry perception benchmarks demonstrate that our model
increases the inference speed in online scenarios while maintaining competitive
performance, paving the way for scalable and interactive 4D vision systems.
Code is available at: https://github.com/wzzheng/StreamVGGT.