ChatPaper.aiChatPaper

VGG-T^3: Offschaal offline feedforward 3D-reconstructie

VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

February 26, 2026
Auteurs: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI

Samenvatting

Wij presenteren een schaalbaar 3D-reconstructiemodel dat een kritieke beperking van offline feed-forward methoden aanpakt: hun rekenkundige en geheugeneisen groeien kwadratisch ten opzichte van het aantal invoerbeelden. Onze aanpak is gebaseerd op het kerninzicht dat dit knelpunt voortkomt uit de variabele-lengte Key-Value (KV)-ruimteweergave van de scènegeometrie, die wij via test-time training destilleren in een Multi-Layer Perceptron (MLP) met vaste grootte. VGG-T³ (Visual Geometry Grounded Test Time Training) schaalt lineair met het aantal invoerbeelden, vergelijkbaar met online modellen, en reconstrueert een verzameling van 1k beelden in slechts 54 seconden, wat een versnelling van 11,6 keer oplevert ten opzichte van baseline-methoden die op softmax-attentie steunen. Omdat onze methode de globale scène-aggregatiecapaciteit behoudt, overtreft onze foutmarge bij puntwolkreconstructie andere lineaire-tijd methoden met grote marges. Ten slotte demonstreren wij de visuele localisatiemogelijkheden van ons model door de scèneweergeving te bevragen met ongeziene beelden.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.
PDF142March 16, 2026