InfiniteVGGT: Visuell-geometrisch fundierter Transformer für endlose Datenströme
InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams
January 5, 2026
papers.authors: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang
cs.AI
papers.abstract
Die große Vision, ein dauerhaftes, großflächiges Verständnis der 3D-Visualgeometrie zu ermöglichen, wird durch die unvereinbaren Anforderungen von Skalierbarkeit und Langzeitstabilität behindert. Während Offline-Modelle wie VGGT beeindruckende geometrische Fähigkeiten erreichen, macht ihr batch-basierter Ansatz sie für Echtzeitsysteme unbrauchbar. Streaming-Architekturen, obwohl als Lösung für den Live-Betrieb gedacht, haben sich als unzureichend erwiesen. Bestehende Methoden unterstützen entweder keine wirklich unendlich langen Eingabesequenzen oder leiden unter katastrophaler Drift über lange Sequenzen. Wir durchbrechen dieses lang bestehende Dilemma mit InfiniteVGGT, einem kausalen Visual-Geometry-Transformer, der das Konzept eines rollierenden Speichers durch einen begrenzten, aber adaptiven und dauerhaft ausdrucksstarken KV-Cache operationalisiert. Darauf aufbauend entwickeln wir eine trainingsfreie, aufmerksamkeitsagnostische Reduktionsstrategie, die veraltete Informationen intelligent verwirft und den Speicher effektiv mit jedem neuen Frame „vorwärts rollt“. Vollständig kompatibel mit FlashAttention beseitigt InfiniteVGGT endlich diesen Kompromiss und ermöglicht Streaming mit unendlichem Horizont, während es die Langzeitstabilität bestehender Streaming-Methoden übertrifft. Der ultimative Test für ein solches System ist seine Leistung über einen wirklich unendlichen Horizont – eine Fähigkeit, die aufgrund fehlender extrem langfristiger, kontinuierlicher Benchmarks bisher nicht rigoros validiert werden konnte. Um diese kritische Lücke zu schließen, führen wir den Long3D-Benchmark ein, der erstmals eine rigorose Evaluation kontinuierlicher 3D-Geometrieschätzung auf Sequenzen von etwa 10.000 Frames ermöglicht. Dies schafft die maßgebliche Evaluierungsplattform für zukünftige Forschung im Bereich des Langzeitverständnisses von 3D-Geometrie. Code ist verfügbar unter: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
English
The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT