Streamende 4D Visuele Geometrie Transformer

Samenvatting

Het waarnemen en reconstrueren van 4D ruimte-tijd geometrie uit video's is een fundamentele maar uitdagende computer vision-taak. Om interactieve en real-time toepassingen mogelijk te maken, stellen we een streaming 4D visuele geometrie transformer voor die een vergelijkbare filosofie deelt met autoregressieve grote taalmodellen. We onderzoeken een eenvoudig en efficiënt ontwerp en gebruiken een causale transformer-architectuur om de invoerreeks op een online manier te verwerken. We gebruiken temporele causale aandacht en cachen de historische sleutels en waarden als impliciet geheugen om efficiënte streaming langetermijn 4D-reconstructie mogelijk te maken. Dit ontwerp kan real-time 4D-reconstructie aan door historische informatie incrementeel te integreren terwijl hoogwaardige ruimtelijke consistentie behouden blijft. Voor efficiënte training stellen we voor om kennis te distilleren uit de dichte bidirectionele visuele geometrie-gebaseerde transformer (VGGT) naar ons causale model. Voor inferentie ondersteunt ons model de migratie van geoptimaliseerde efficiënte aandachtoperators (bijv. FlashAttention) uit het veld van grote taalmodellen. Uitgebreide experimenten op verschillende 4D geometrie-perceptiebenchmarks tonen aan dat ons model de inferentiesnelheid in online scenario's verhoogt terwijl het competitieve prestaties behoudt, wat de weg vrijmaakt voor schaalbare en interactieve 4D-visiesystemen. Code is beschikbaar op: https://github.com/wzzheng/StreamVGGT.

English

Perceiving and reconstructing 4D spatial-temporal geometry from videos is a fundamental yet challenging computer vision task. To facilitate interactive and real-time applications, we propose a streaming 4D visual geometry transformer that shares a similar philosophy with autoregressive large language models. We explore a simple and efficient design and employ a causal transformer architecture to process the input sequence in an online manner. We use temporal causal attention and cache the historical keys and values as implicit memory to enable efficient streaming long-term 4D reconstruction. This design can handle real-time 4D reconstruction by incrementally integrating historical information while maintaining high-quality spatial consistency. For efficient training, we propose to distill knowledge from the dense bidirectional visual geometry grounded transformer (VGGT) to our causal model. For inference, our model supports the migration of optimized efficient attention operator (e.g., FlashAttention) from the field of large language models. Extensive experiments on various 4D geometry perception benchmarks demonstrate that our model increases the inference speed in online scenarios while maintaining competitive performance, paving the way for scalable and interactive 4D vision systems. Code is available at: https://github.com/wzzheng/StreamVGGT.

Streamende 4D Visuele Geometrie Transformer

Streaming 4D Visual Geometry Transformer

Samenvatting

Support