ChatPaper.aiChatPaper

InfiniteVGGT: Visuele Geometrie Gegronde Transformer voor Eindeloze Stromen

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

January 5, 2026
Auteurs: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang
cs.AI

Samenvatting

De grootse visie om persistent, grootschalig 3D-visueel geometriebegrip mogelijk te maken, wordt geketend door de onverenigbare eisen van schaalbaarheid en langetermijnstabiliteit. Hoewel offline modellen zoals VGGT indrukwekkende geometrische capaciteiten bereiken, maakt hun batchgebaseerde aard ze ongeschikt voor live systemen. Streaming-architecturen, hoewel bedoeld als oplossing voor live operaties, blijken ontoereikend. Bestaande methoden ondersteunen ofwel geen werkelijk oneindige invoerreeksen, of lijden onder catastrofale drift over lange sequenties. Wij doorbreken dit lang bestaande dilemma met InfiniteVGGT, een causaal visueel geometrie-transformer-model dat het concept van een rollend geheugen operationaliseert via een begrensde, maar adaptieve en voortdurend expressieve KV-cache. Hierop voortbordurend ontwikkelen we een trainingsvrije, aandacht-agnostische pruningstrategie die verouderde informatie intelligent verwijdert en het geheugen effectief naar voren 'rolt' met elk nieuw frame. Volledig compatibel met FlashAttention, maakt InfiniteVGGT eindelijk een einde aan het compromis: het stelt oneindige streaming mogelijk en overtreft bestaande streamingmethoden in langetermijnstabiliteit. De ultieme test voor een dergelijk systeem is de prestaties over een werkelijk oneindige reeks, een capaciteit die onmogelijk rigoureus te valideren was vanwege het ontbreken van extreem langdurige, continue benchmarks. Om dit kritieke hiaat te adresseren, introduceren we de Long3D-benchmark, die voor het eerst een rigoureuze evaluatie mogelijk maakt van continue 3D-geometrieschatting op sequenties van ongeveer 10.000 frames. Dit biedt het definitieve evaluatieplatform voor toekomstig onderzoek naar langetermijn-3D-geometriebegrip. Code is beschikbaar op: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
English
The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
PDF201January 7, 2026