Streamende 4D Visuele Geometrie Transformer
Streaming 4D Visual Geometry Transformer
July 15, 2025
Auteurs: Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu
cs.AI
Samenvatting
Het waarnemen en reconstrueren van 4D ruimte-tijd geometrie uit video's is een fundamentele maar uitdagende computer vision-taak. Om interactieve en real-time toepassingen mogelijk te maken, stellen we een streaming 4D visuele geometrie transformer voor die een vergelijkbare filosofie deelt met autoregressieve grote taalmodellen. We onderzoeken een eenvoudig en efficiënt ontwerp en gebruiken een causale transformer-architectuur om de invoerreeks op een online manier te verwerken. We gebruiken temporele causale aandacht en cachen de historische sleutels en waarden als impliciet geheugen om efficiënte streaming langetermijn 4D-reconstructie mogelijk te maken. Dit ontwerp kan real-time 4D-reconstructie aan door historische informatie incrementeel te integreren terwijl hoogwaardige ruimtelijke consistentie behouden blijft. Voor efficiënte training stellen we voor om kennis te distilleren uit de dichte bidirectionele visuele geometrie-gebaseerde transformer (VGGT) naar ons causale model. Voor inferentie ondersteunt ons model de migratie van geoptimaliseerde efficiënte aandachtoperators (bijv. FlashAttention) uit het veld van grote taalmodellen. Uitgebreide experimenten op verschillende 4D geometrie-perceptiebenchmarks tonen aan dat ons model de inferentiesnelheid in online scenario's verhoogt terwijl het competitieve prestaties behoudt, wat de weg vrijmaakt voor schaalbare en interactieve 4D-visiesystemen. Code is beschikbaar op: https://github.com/wzzheng/StreamVGGT.
English
Perceiving and reconstructing 4D spatial-temporal geometry from videos is a
fundamental yet challenging computer vision task. To facilitate interactive and
real-time applications, we propose a streaming 4D visual geometry transformer
that shares a similar philosophy with autoregressive large language models. We
explore a simple and efficient design and employ a causal transformer
architecture to process the input sequence in an online manner. We use temporal
causal attention and cache the historical keys and values as implicit memory to
enable efficient streaming long-term 4D reconstruction. This design can handle
real-time 4D reconstruction by incrementally integrating historical information
while maintaining high-quality spatial consistency. For efficient training, we
propose to distill knowledge from the dense bidirectional visual geometry
grounded transformer (VGGT) to our causal model. For inference, our model
supports the migration of optimized efficient attention operator (e.g.,
FlashAttention) from the field of large language models. Extensive experiments
on various 4D geometry perception benchmarks demonstrate that our model
increases the inference speed in online scenarios while maintaining competitive
performance, paving the way for scalable and interactive 4D vision systems.
Code is available at: https://github.com/wzzheng/StreamVGGT.