InfiniteVGGT: 무한 스트림을 위한 시각 기하학 기반 트랜스포머
InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams
January 5, 2026
저자: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang
cs.AI
초록
지속적이고 대규모의 3D 시각 기하학 이해라는 위대한 비전은 확장성과 장기적 안정성이라는 상충되는 요구에 의해 족쇄가 채워져 왔습니다. VGGT와 같은 오프라인 모델은 뛰어난 기하학적 능력을 달성했지만, 배치 기반의 특성으로 인해 실시간 시스템에는 적용하기 어렵습니다. 실시간 운영을 위한 의도된 해결책인 스트리밍 아키텍처 역시 불충분한 것으로 입증되었습니다. 기존 방법들은 진정한 무한 구간 입력을 지원하지 못하거나 긴 시퀀스에서 치명적인 드리프트 현상을 겪습니다. 우리는 이러한 오랜 딜레마를 InfiniteVGGT로 해결합니다. InfiniteVGGT는 유한하지만 적응적이며 지속적으로 표현력 있는 KV 캐시를 통해 롤링 메모리 개념을 구현한 인과적 시각 기하학 트랜스포머입니다. 이를 바탕으로 우리는 훈련이 필요 없고 어텐션에 구애받지 않는 프루닝 전략을 고안하여, 시대에 뒤처진 정보를 지능적으로 제거하고 각 새 프레임마다 메모리를 효과적으로 '구름'처럼 앞으로 전진시킵니다. FlashAttention과 완벽하게 호환되는 InfiniteVGGT는 마침내 이러한 절충점을 해소하며, 무한 구간 스트리밍을 가능하게 하고 장기적 안정성에서 기존 스트리밍 방법들을 능가합니다. 이러한 시스템에 대한 궁극적인 검증은 진정한 무한 구간에서의 성능이며, 극도로 장기간의 연속 벤치마크 부재로 인해 엄격하게 검증하는 것이 불가능했던 능력입니다. 이 중요한 격차를 해결하기 위해 우리는 Long3D 벤치마크를 소개합니다. 이는 약 10,000프레임에 달하는 시퀀스에 대한 연속 3D 기하학 추정의 엄격한 평가를 최초로 가능하게 합니다. 이는 장기 3D 기하학 이해에 대한 향후 연구를 위한 결정적인 평가 플랫폼을 제공합니다. 코드는 다음에서 이용 가능합니다: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
English
The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT