InfiniteVGGT: Transformer com Base em Geometria Visual para Fluxos Contínuos

Resumo

A grande visão de permitir uma compreensão persistente e em larga escala da geometria visual 3D está acorrentada pelas demandas irreconciliáveis de escalabilidade e estabilidade de longo prazo. Embora modelos offline, como o VGGT, atinjam capacidades geométricas inspiradoras, sua natureza baseada em lotes os torna irrelevantes para sistemas em tempo real. As arquiteturas de *streaming*, embora sejam a solução pretendida para operação ao vivo, mostraram-se inadequadas. Os métodos existentes ou falham em suportar entradas de horizonte verdadeiramente infinito ou sofrem com desvios catastróficos em sequências longas. Nós quebramos esse dilema de longa data com o InfiniteVGGT, um transformador de geometria visual causal que operacionaliza o conceito de uma memória rolante por meio de um cache KV limitado, mas adaptativo e perpetuamente expressivo. Aproveitando isso, concebemos uma estratégia de poda, livre de treinamento e agnóstica à atenção, que descarta inteligentemente informações obsoletas, efetivamente "rolando" a memória para a frente a cada novo quadro. Totalmente compatível com o FlashAttention, o InfiniteVGGT finalmente alivia o compromisso, permitindo o *streaming* de horizonte infinito enquanto supera os métodos de *streaming* existentes em estabilidade de longo prazo. O teste definitivo para tal sistema é o seu desempenho em um horizonte verdadeiramente infinito, uma capacidade que tem sido impossível de validar rigorosamente devido à falta de *benchmarks* contínuos e de extremo longo prazo. Para abordar essa lacuna crítica, introduzimos o *benchmark* Long3D, que, pela primeira vez, permite uma avaliação rigorosa da estimativa contínua de geometria 3D em sequências de aproximadamente 10.000 quadros. Isso fornece a plataforma de avaliação definitiva para pesquisas futuras na compreensão de geometria 3D de longo prazo. O código está disponível em: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT

English

The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT