ChatPaper.aiChatPaper

스트리밍 4D 시각적 기하학 트랜스포머

Streaming 4D Visual Geometry Transformer

July 15, 2025
저자: Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu
cs.AI

초록

비디오에서 4차원 시공간 기하학을 인지하고 재구성하는 것은 근본적이면서도 도전적인 컴퓨터 비전 과제입니다. 상호작용적이고 실시간 애플리케이션을 가능하게 하기 위해, 우리는 자동회귀적 대규모 언어 모델과 유사한 철학을 공유하는 스트리밍 4차원 시각 기하학 트랜스포머를 제안합니다. 우리는 간단하고 효율적인 설계를 탐구하고, 입력 시퀀스를 온라인 방식으로 처리하기 위해 인과적 트랜스포머 아키텍처를 사용합니다. 시간적 인과적 어텐션을 활용하고, 역사적 키와 값을 암묵적 메모리로 캐싱하여 효율적인 스트리밍 장기 4차원 재구성을 가능하게 합니다. 이 설계는 고품질의 공간적 일관성을 유지하면서 역사적 정보를 점진적으로 통합하여 실시간 4차원 재구성을 처리할 수 있습니다. 효율적인 학습을 위해, 우리는 밀집 양방향 시각 기하학 기반 트랜스포머(VGGT)에서 지식을 추출하여 우리의 인과적 모델로 전달하는 방법을 제안합니다. 추론 시, 우리의 모델은 대규모 언어 모델 분야에서 최적화된 효율적 어텐션 연산자(예: FlashAttention)의 이전을 지원합니다. 다양한 4차원 기하학 인지 벤치마크에서의 광범위한 실험은 우리의 모델이 온라인 시나리오에서 추론 속도를 증가시키면서도 경쟁력 있는 성능을 유지함을 보여주며, 확장 가능하고 상호작용적인 4차원 시각 시스템의 길을 열어줍니다. 코드는 https://github.com/wzzheng/StreamVGGT에서 확인할 수 있습니다.
English
Perceiving and reconstructing 4D spatial-temporal geometry from videos is a fundamental yet challenging computer vision task. To facilitate interactive and real-time applications, we propose a streaming 4D visual geometry transformer that shares a similar philosophy with autoregressive large language models. We explore a simple and efficient design and employ a causal transformer architecture to process the input sequence in an online manner. We use temporal causal attention and cache the historical keys and values as implicit memory to enable efficient streaming long-term 4D reconstruction. This design can handle real-time 4D reconstruction by incrementally integrating historical information while maintaining high-quality spatial consistency. For efficient training, we propose to distill knowledge from the dense bidirectional visual geometry grounded transformer (VGGT) to our causal model. For inference, our model supports the migration of optimized efficient attention operator (e.g., FlashAttention) from the field of large language models. Extensive experiments on various 4D geometry perception benchmarks demonstrate that our model increases the inference speed in online scenarios while maintaining competitive performance, paving the way for scalable and interactive 4D vision systems. Code is available at: https://github.com/wzzheng/StreamVGGT.
PDF101July 22, 2025