Transformador de Geometria Visual 4D em Tempo Real
Streaming 4D Visual Geometry Transformer
July 15, 2025
Autores: Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu
cs.AI
Resumo
Perceber e reconstruir a geometria espaço-temporal 4D a partir de vídeos é uma tarefa fundamental, porém desafiadora, na área de visão computacional. Para facilitar aplicações interativas e em tempo real, propomos um transformador de geometria visual 4D em streaming que compartilha uma filosofia semelhante com modelos de linguagem grandes autoregressivos. Exploramos um design simples e eficiente e empregamos uma arquitetura de transformador causal para processar a sequência de entrada de maneira online. Utilizamos atenção causal temporal e armazenamos em cache as chaves e valores históricos como memória implícita para permitir uma reconstrução 4D de longo prazo eficiente em streaming. Esse design é capaz de lidar com a reconstrução 4D em tempo real ao integrar incrementalmente informações históricas, mantendo uma consistência espacial de alta qualidade. Para um treinamento eficiente, propomos destilar conhecimento do transformador de geometria visual bidirecional denso (VGGT) para o nosso modelo causal. Para inferência, nosso modelo suporta a migração de operadores de atenção eficientes otimizados (por exemplo, FlashAttention) do campo de modelos de linguagem grandes. Experimentos extensivos em vários benchmarks de percepção de geometria 4D demonstram que nosso modelo aumenta a velocidade de inferência em cenários online enquanto mantém um desempenho competitivo, abrindo caminho para sistemas de visão 4D escaláveis e interativos. O código está disponível em: https://github.com/wzzheng/StreamVGGT.
English
Perceiving and reconstructing 4D spatial-temporal geometry from videos is a
fundamental yet challenging computer vision task. To facilitate interactive and
real-time applications, we propose a streaming 4D visual geometry transformer
that shares a similar philosophy with autoregressive large language models. We
explore a simple and efficient design and employ a causal transformer
architecture to process the input sequence in an online manner. We use temporal
causal attention and cache the historical keys and values as implicit memory to
enable efficient streaming long-term 4D reconstruction. This design can handle
real-time 4D reconstruction by incrementally integrating historical information
while maintaining high-quality spatial consistency. For efficient training, we
propose to distill knowledge from the dense bidirectional visual geometry
grounded transformer (VGGT) to our causal model. For inference, our model
supports the migration of optimized efficient attention operator (e.g.,
FlashAttention) from the field of large language models. Extensive experiments
on various 4D geometry perception benchmarks demonstrate that our model
increases the inference speed in online scenarios while maintaining competitive
performance, paving the way for scalable and interactive 4D vision systems.
Code is available at: https://github.com/wzzheng/StreamVGGT.