VGG-T^3: Ricostruzione 3D Offline Feed-Forward su Larga Scala
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale
February 26, 2026
Autori: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI
Abstract
Presentiamo un modello di ricostruzione 3D scalabile che affronta una limitazione critica dei metodi feed-forward offline: i loro requisiti computazionali e di memoria crescono quadraticamente rispetto al numero di immagini in input. Il nostro approccio si basa sulla chiave di lettura che questo collo di bottiglia origina dalla rappresentazione dello spazio Chiave-Valore (KV) a lunghezza variabile della geometria della scena, che distilliamo in un Percettrone Multistrato (MLP) di dimensioni fisse tramite un addestramento al momento del test. VGG-T³ (Visual Geometry Grounded Test Time Training) scala linearmente rispetto al numero di viste in input, similmente ai modelli online, e ricostruisce una collezione di 1k immagini in soli 54 secondi, ottenendo un incremento di velocità di 11,6 volte rispetto ai baseline che si affidano all'attenzione softmax. Poiché il nostro metodo conserva la capacità di aggregazione globale della scena, il nostro errore di ricostruzione della mappa di punti supera di ampio margine altri metodi a tempo lineare. Infine, dimostriamo le capacità di localizzazione visiva del nostro modello interrogando la rappresentazione della scena con immagini non viste.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.