ChatPaper.aiChatPaper

InfiniteVGGT : Transformateur à Base de Géométrie Visuelle pour des Flux Infinis

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

January 5, 2026
papers.authors: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang
cs.AI

papers.abstract

La grande vision de permettre une compréhension géométrique visuelle 3D persistante et à grande échelle est entravée par les exigences inconciliables de l'évolutivité et de la stabilité à long terme. Si des modèles hors ligne comme VGGT atteignent des capacités géométriques impressionnantes, leur nature par lots les rend inadaptés aux systèmes en temps réel. Les architectures de streaming, bien que conçues pour un fonctionnement en direct, se sont avérées inadéquates. Les méthodes existantes échouent soit à prendre en charge des entrées véritablement à horizon infini, soit souffrent d'une dérive catastrophique sur de longues séquences. Nous brisons ce dilemme de longue date avec InfiniteVGGT, un transformeur de géométrie visuelle causal qui opérationnalise le concept de mémoire glissante grâce à un cache KV borné mais adaptatif et perpétuellement expressif. En capitalisant sur cela, nous concevons une stratégie d'élagage, agnostique à l'attention et sans apprentissage, qui supprime intelligemment les informations obsolètes, faisant ainsi « avancer » la mémoire à chaque nouvelle image. Entièrement compatible avec FlashAttention, InfiniteVGGT lève enfin le compromis, permettant un streaming à horizon infini tout en surpassant les méthodes de streaming existantes en stabilité à long terme. Le test ultime pour un tel système est sa performance sur un horizon véritablement infini, une capacité qui a été impossible à valider rigoureusement en raison de l'absence de benchmarks continus extrêmement longs. Pour combler cette lacune critique, nous présentons le benchmark Long3D, qui permet pour la première fois une évaluation rigoureuse de l'estimation géométrique 3D continue sur des séquences d'environ 10 000 images. Cela fournit la plateforme d'évaluation définitive pour la recherche future sur la compréhension géométrique 3D à long terme. Le code est disponible à l'adresse : https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
English
The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
PDF201January 7, 2026