ChatPaper.aiChatPaper

無限VGGT:エンドレスストリームのための視覚幾何基礎トランスフォーマー

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

January 5, 2026
著者: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang
cs.AI

要旨

永続的かつ大規模な3D視覚的ジオメトリ理解という壮大なビジョンは、スケーラビリティと長期的安定性の相反する要求によって阻まれてきた。VGGTのようなオフラインモデルは印象的なジオメトリ能力を達成するが、バッチ処理ベースの性質によりライブシステムには不向きである。ストリーミングアーキテクチャはライブ動作のための意図された解決策であるものの、不十分であることが証明されている。既存手法は、真に無限の時間軸入力に対応できないか、長いシーケンスで壊滅的なドリフトに悩まされている。我々はこの長年のジレンマをInfiniteVGGTによって打破する。これは因果的視覚ジオメリトランスフォーマーであり、境界付けられながらも適応的で永続的に表現力豊かなKVキャッシュを通じてローリングメモリの概念を実現する。これを活用し、訓練不要でアテンション機構に依存しない剪定戦略を考案し、時代遅れの情報を知的に破棄することで、各新フレームごとにメモリを効果的に「前進」させる。FlashAttentionと完全互換であるInfiniteVGGTは、最終的に妥協を解消し、無限時間軸ストリーミングを可能にしながら、長期的安定性において既存のストリーミング手法を上回る。 このようなシステムに対する究極のテストは、真に無限の時間軸にわたる性能である。これまで、極めて長期的かつ連続的なベンチマークの欠如により、この能力を厳密に検証することは不可能であった。この重大な隔たりに対処するため、我々はLong3Dベンチマークを初めて導入する。これは約10,000フレームに及ぶシーケンスにおける連続的3Dジオメトリ推定の厳密な評価を可能にする。これにより、長期的3Dジオメトリ理解の将来研究における決定的な評価基盤を提供する。 コードは以下で利用可能:https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
English
The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
PDF201January 7, 2026