ストリーミング4D視覚幾何学トランスフォーマー
Streaming 4D Visual Geometry Transformer
July 15, 2025
著者: Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu
cs.AI
要旨
動画から4次元時空間ジオメトリを認識し再構築することは、コンピュータビジョンにおける基本的でありながら困難な課題です。インタラクティブでリアルタイムなアプリケーションを実現するため、我々はオートリグレッシブな大規模言語モデルと類似の哲学を共有するストリーミング4次元視覚ジオメトリトランスフォーマーを提案します。シンプルで効率的な設計を探求し、因果的トランスフォーマーアーキテクチャを採用して入力シーケンスをオンライン方式で処理します。時間的因果的アテンションを使用し、歴史的なキーと値を暗黙のメモリとしてキャッシュすることで、効率的なストリーミング長期4次元再構築を可能にします。この設計は、高品質な空間的一貫性を維持しながら、歴史的情報を段階的に統合することでリアルタイム4次元再構築を処理できます。効率的な訓練のために、密な双方向視覚ジオメトリグラウンデッドトランスフォーマー(VGGT)から因果的モデルへ知識を蒸留することを提案します。推論において、我々のモデルは大規模言語モデル分野から最適化された効率的なアテンション演算子(例:FlashAttention)の移行をサポートします。様々な4次元ジオメトリ認識ベンチマークでの広範な実験により、我々のモデルがオンラインシナリオでの推論速度を向上させながら競争力のある性能を維持し、スケーラブルでインタラクティブな4次元視覚システムへの道を開くことが実証されました。コードは以下で公開されています:https://github.com/wzzheng/StreamVGGT。
English
Perceiving and reconstructing 4D spatial-temporal geometry from videos is a
fundamental yet challenging computer vision task. To facilitate interactive and
real-time applications, we propose a streaming 4D visual geometry transformer
that shares a similar philosophy with autoregressive large language models. We
explore a simple and efficient design and employ a causal transformer
architecture to process the input sequence in an online manner. We use temporal
causal attention and cache the historical keys and values as implicit memory to
enable efficient streaming long-term 4D reconstruction. This design can handle
real-time 4D reconstruction by incrementally integrating historical information
while maintaining high-quality spatial consistency. For efficient training, we
propose to distill knowledge from the dense bidirectional visual geometry
grounded transformer (VGGT) to our causal model. For inference, our model
supports the migration of optimized efficient attention operator (e.g.,
FlashAttention) from the field of large language models. Extensive experiments
on various 4D geometry perception benchmarks demonstrate that our model
increases the inference speed in online scenarios while maintaining competitive
performance, paving the way for scalable and interactive 4D vision systems.
Code is available at: https://github.com/wzzheng/StreamVGGT.