Transformador de Geometria Visual 4D em Tempo Real

Resumo

Perceber e reconstruir a geometria espaço-temporal 4D a partir de vídeos é uma tarefa fundamental, porém desafiadora, na área de visão computacional. Para facilitar aplicações interativas e em tempo real, propomos um transformador de geometria visual 4D em streaming que compartilha uma filosofia semelhante com modelos de linguagem grandes autoregressivos. Exploramos um design simples e eficiente e empregamos uma arquitetura de transformador causal para processar a sequência de entrada de maneira online. Utilizamos atenção causal temporal e armazenamos em cache as chaves e valores históricos como memória implícita para permitir uma reconstrução 4D de longo prazo eficiente em streaming. Esse design é capaz de lidar com a reconstrução 4D em tempo real ao integrar incrementalmente informações históricas, mantendo uma consistência espacial de alta qualidade. Para um treinamento eficiente, propomos destilar conhecimento do transformador de geometria visual bidirecional denso (VGGT) para o nosso modelo causal. Para inferência, nosso modelo suporta a migração de operadores de atenção eficientes otimizados (por exemplo, FlashAttention) do campo de modelos de linguagem grandes. Experimentos extensivos em vários benchmarks de percepção de geometria 4D demonstram que nosso modelo aumenta a velocidade de inferência em cenários online enquanto mantém um desempenho competitivo, abrindo caminho para sistemas de visão 4D escaláveis e interativos. O código está disponível em: https://github.com/wzzheng/StreamVGGT.

English

Perceiving and reconstructing 4D spatial-temporal geometry from videos is a fundamental yet challenging computer vision task. To facilitate interactive and real-time applications, we propose a streaming 4D visual geometry transformer that shares a similar philosophy with autoregressive large language models. We explore a simple and efficient design and employ a causal transformer architecture to process the input sequence in an online manner. We use temporal causal attention and cache the historical keys and values as implicit memory to enable efficient streaming long-term 4D reconstruction. This design can handle real-time 4D reconstruction by incrementally integrating historical information while maintaining high-quality spatial consistency. For efficient training, we propose to distill knowledge from the dense bidirectional visual geometry grounded transformer (VGGT) to our causal model. For inference, our model supports the migration of optimized efficient attention operator (e.g., FlashAttention) from the field of large language models. Extensive experiments on various 4D geometry perception benchmarks demonstrate that our model increases the inference speed in online scenarios while maintaining competitive performance, paving the way for scalable and interactive 4D vision systems. Code is available at: https://github.com/wzzheng/StreamVGGT.

Transformador de Geometria Visual 4D em Tempo Real

Streaming 4D Visual Geometry Transformer

Resumo

Support