ChatPaper.aiChatPaper

InfiniteVGGT: Transformador con Base en Geometría Visual para Flujos Infinitos

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

January 5, 2026
Autores: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang
cs.AI

Resumen

La gran visión de permitir una comprensión persistente y a gran escala de la geometría visual 3D se ve obstaculizada por las demandas irreconciliables de escalabilidad y estabilidad a largo plazo. Si bien modelos por lotes como VGGT logran una capacidad geométrica inspiradora, su naturaleza basada en procesamiento por lotes los hace irrelevantes para sistemas en tiempo real. Las arquitecturas de flujo continuo, aunque concebidas como la solución para operación en vivo, han demostrado ser insuficientes. Los métodos existentes o bien no logran soportar entradas de horizonte temporal verdaderamente infinito, o sufren de una deriva catastrófica en secuencias largas. Nosotros resolvemos este dilema de larga data con InfiniteVGGT, un transformador de geometría visual causal que operacionaliza el concepto de una memoria rodante mediante una caché KV acotada pero adaptativa y perpetuamente expresiva. Aprovechando esto, diseñamos una estrategia de poda, agnóstica a la atención y que no requiere entrenamiento adicional, que descarta inteligentemente la información obsoleta, "haciendo rodar" la memoria hacia adelante con cada nuevo fotograma. Totalmente compatible con FlashAttention, InfiniteVGGT finalmente alivia el compromiso, permitiendo el flujo continuo de horizonte infinito y superando a los métodos de flujo existentes en estabilidad a largo plazo. La prueba definitiva para un sistema así es su rendimiento sobre un horizonte verdaderamente infinito, una capacidad que ha sido imposible de validar rigurosamente debido a la falta de benchmarks extremadamente largos y continuos. Para abordar esta brecha crítica, presentamos el benchmark Long3D, que, por primera vez, permite una evaluación rigurosa de la estimación continua de geometría 3D en secuencias de aproximadamente 10,000 fotogramas. Esto proporciona la plataforma de evaluación definitiva para la investigación futura en comprensión de geometría 3D a largo plazo. El código está disponible en: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
English
The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
PDF201January 7, 2026