VGG-T^3: Skalierbare Offline-Feed-Forward-3D-Rekonstruktion
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale
February 26, 2026
Autoren: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI
Zusammenfassung
Wir stellen ein skalierbares 3D-Rekonstruktionsmodell vor, das eine kritische Einschränkung von Offline-Feed-Forward-Verfahren adressiert: deren Rechen- und Speicheranforderungen wachsen quadratisch mit der Anzahl der Eingabebilder. Unser Ansatz basiert auf der zentralen Erkenntnis, dass dieser Engpass auf der variablen Länge der Key-Value (KV)-Raumdarstellung der Szenengeometrie beruht, die wir mittels Test-Time-Training in ein feststehendes Multi-Layer Perceptron (MLP) destillieren. VGG-T^3 (Visual Geometry Grounded Test Time Training) skaliert linear mit der Anzahl der Eingabeansichten, ähnlich wie Online-Modelle, und rekonstruiert eine Sammlung von 1.000 Bildern in nur 54 Sekunden, was eine 11,6-fache Beschleunigung gegenüber Baseline-Modellen darstellt, die auf Softmax-Attention angewiesen sind. Da unsere Methode die globale Szenenaggregationsfähigkeit beibehält, übertrifft unser Rekonstruktionsfehler der Punktwolke andere lineare Verfahren mit großem Abstand. Abschließend demonstrieren wir die visuelle Lokalisierungsfähigkeit unseres Modells, indem wir die Szenendarstellung mit unbekannten Bildern abfragen.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.