InfiniteVGGT: Trasformatore con Base nella Geometria Visiva per Flussi Infiniti

Abstract

La grande visione di abilitare una comprensione persistente e su larga scala della geometria visiva 3D è ostacolata dalle richieste inconciliabili di scalabilità e stabilità a lungo termine. Sebbene modelli offline come VGGT raggiungano capacità geometriche notevoli, la loro natura basata su batch li rende inadatti per sistemi in tempo reale. Le architetture di streaming, sebbene siano la soluzione ideale per il funzionamento live, si sono rivelate inadeguate. I metodi esistenti non supportano input veramente a orizzonte infinito o soffrono di una deriva catastrofica su sequenze lunghe. Noi infrangiamo questo dilemma di lunga data con InfiniteVGGT, un trasformatore di geometria visiva causale che concretizza il concetto di memoria rolling attraverso una cache KV limitata ma adattiva e perpetuamente espressiva. Sfruttando ciò, elaboriamo una strategia di pruning, agnostica all'attenzione e senza necessità di addestramento, che scarta intelligentemente le informazioni obsolete, facendo "scorrere" efficacemente la memoria in avanti con ogni nuovo fotogramma. Completamente compatibile con FlashAttention, InfiniteVGGT allevia finalmente il compromesso, abilitando lo streaming a orizzonte infinito superando allo stesso tempo i metodi di streaming esistenti in termini di stabilità a lungo termine. La prova definitiva per un tale sistema è la sua performance su un orizzonte veramente infinito, una capacità che è stata impossibile da validare rigorosamente a causa della mancanza di benchmark estremamente lunghi e continui. Per colmare questa lacuna critica, introduciamo il benchmark Long3D, che, per la prima volta, consente una valutazione rigorosa della stima continua della geometria 3D su sequenze di circa 10.000 fotogrammi. Questo fornisce la piattaforma di valutazione definitiva per la ricerca futura nella comprensione della geometria 3D a lungo termine. Il codice è disponibile all'indirizzo: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT

English

The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT

InfiniteVGGT: Trasformatore con Base nella Geometria Visiva per Flussi Infiniti

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

Abstract

Support