VGG-T^3: 대규모 오프라인 피드포워드 3D 재구성
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale
February 26, 2026
저자: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI
초록
우리는 오프라인 피드-포워드 방식의 중요한 한계점, 즉 입력 이미지 수에 따라 계산 및 메모리 요구량이 이차적으로 증가하는 문제를 해결하는 확장 가능한 3D 재구성 모델을 제안합니다. 우리의 접근법은 이러한 병목 현상이 장면 기하학의 가변 길이 키-값(KV) 공간 표현에서 비롯된다는 핵심 통찰에 기반하며, 이를 테스트 시간 학습을 통해 고정 크기 MLP(Multi-Layer Perceptron)로 정제합니다. VGG-T^3(Visual Geometry Grounded Test Time Training)은 온라인 모델과 유사하게 입력 뷰 수에 대해 선형적으로 확장되며, 1,000장의 이미지 컬렉션을 단 54초 만에 재구성하여 소프트맥스 어텐션에 의존하는 기준 방법 대비 11.6배의 속도 향상을 달성했습니다. 우리의 방법은 전역 장면 집계 능력을 유지하므로 포인트 맵 재구성 오류가 다른 선형 시간 방법들을 큰 차이로 능가합니다. 마지막으로, 보지 않은 이미지로 장면 표현을 질의함으로써 우리 모델의 시각적 위치 인식 능력을 입증합니다.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.