ChatPaper.aiChatPaper

InfiniteVGGT: Трансформер с визуально-геометрическим обоснованием для бесконечных потоков

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

January 5, 2026
Авторы: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang
cs.AI

Аннотация

Грандиозная задача обеспечения устойчивого крупномасштабного понимания 3D-визуальной геометрии скована непримиримыми противоречиями между требованиями масштабируемости и долгосрочной стабильности. Хотя автономные модели, такие как VGGT, демонстрируют впечатляющие способности в области геометрии, их пакетная природа делает их непригодными для работы в реальном времени. Потоковые архитектуры, изначально предназначенные для решения этой задачи, оказались несостоятельными. Существующие методы либо не поддерживают поистине бесконечные временные горизонты входных данных, либо страдают от катастрофического дрейфа в длинных последовательностях. Мы разрешаем эту давнюю дилемму с помощью InfiniteVGGT — каузального трансформера визуальной геометрии, который реализует концепцию скользящей памяти через ограниченный, но адаптивный и постоянно выразительный KV-кэш. Используя это, мы разрабатываем стратегию прореживания, не требующую дообучения и независимую от механизма внимания, которая интеллектуально отбрасывает устаревшую информацию, эффективно «перекатывая» память вперед с каждым новым кадром. Полностью совместимый с FlashAttention, InfiniteVGGT наконец снимает это противоречие, обеспечивая потоковую обработку с бесконечным горизонтом и превосходя существующие потоковые методы по долгосрочной стабильности. Главным испытанием для такой системы является её производительность на поистине бесконечном горизонте — возможность, которую до сих пор было невозможно строго проверить из-за отсутствия сверхдолгосрочных непрерывных бенчмарков. Чтобы заполнить этот критический пробел, мы представляем бенчмарк Long3D, который впервые позволяет провести строгую оценку непрерывного оценивания 3D-геометрии на последовательностях длиной около 10 000 кадров. Это создает окончательную платформу для оценки будущих исследований в области долгосрочного понимания 3D-геометрии. Код доступен по адресу: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
English
The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
PDF201January 7, 2026