Transformateur de Géométrie Visuelle 4D en Flux Continu
Streaming 4D Visual Geometry Transformer
July 15, 2025
papers.authors: Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
La perception et la reconstruction de la géométrie spatio-temporelle 4D à partir de vidéos constituent une tâche fondamentale mais complexe en vision par ordinateur. Pour faciliter les applications interactives et en temps réel, nous proposons un transformateur de géométrie visuelle 4D en flux continu, qui partage une philosophie similaire avec les modèles de langage autoregressifs à grande échelle. Nous explorons une conception simple et efficace et utilisons une architecture de transformateur causal pour traiter la séquence d'entrée de manière en ligne. Nous employons une attention temporelle causale et mettons en cache les clés et valeurs historiques comme mémoire implicite, permettant ainsi une reconstruction 4D à long terme en flux continu et efficace. Cette conception permet de gérer la reconstruction 4D en temps réel en intégrant progressivement les informations historiques tout en maintenant une cohérence spatiale de haute qualité. Pour un entraînement efficace, nous proposons de distiller les connaissances d'un transformateur de géométrie visuelle bidirectionnel dense (VGGT) vers notre modèle causal. Pour l'inférence, notre modèle prend en charge la migration d'opérateurs d'attention optimisés et efficaces (par exemple, FlashAttention) issus du domaine des modèles de langage à grande échelle. Des expériences approfondies sur divers benchmarks de perception de géométrie 4D démontrent que notre modèle augmente la vitesse d'inférence dans des scénarios en ligne tout en maintenant des performances compétitives, ouvrant la voie à des systèmes de vision 4D évolutifs et interactifs. Le code est disponible à l'adresse : https://github.com/wzzheng/StreamVGGT.
English
Perceiving and reconstructing 4D spatial-temporal geometry from videos is a
fundamental yet challenging computer vision task. To facilitate interactive and
real-time applications, we propose a streaming 4D visual geometry transformer
that shares a similar philosophy with autoregressive large language models. We
explore a simple and efficient design and employ a causal transformer
architecture to process the input sequence in an online manner. We use temporal
causal attention and cache the historical keys and values as implicit memory to
enable efficient streaming long-term 4D reconstruction. This design can handle
real-time 4D reconstruction by incrementally integrating historical information
while maintaining high-quality spatial consistency. For efficient training, we
propose to distill knowledge from the dense bidirectional visual geometry
grounded transformer (VGGT) to our causal model. For inference, our model
supports the migration of optimized efficient attention operator (e.g.,
FlashAttention) from the field of large language models. Extensive experiments
on various 4D geometry perception benchmarks demonstrate that our model
increases the inference speed in online scenarios while maintaining competitive
performance, paving the way for scalable and interactive 4D vision systems.
Code is available at: https://github.com/wzzheng/StreamVGGT.