VGG-T^3 : Reconstruction 3D hors ligne à grande échelle par propagation avant
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale
February 26, 2026
Auteurs: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI
Résumé
Nous présentons un modèle de reconstruction 3D scalable qui résout une limitation critique des méthodes feed-forward hors ligne : leurs exigences computationnelles et mémoire croissent de manière quadratique par rapport au nombre d'images d'entrée. Notre approche repose sur l'idée clé que ce goulot d'étranglement provient de la représentation de la géométrie de la scène dans un espace Clé-Valeur (KV) de longueur variable, que nous distillons dans un Perceptron Multicouche (MLP) de taille fixe via un entraînement au moment du test. VGG-T³ (Visual Geometry Grounded Test Time Training) s'adapte linéairement au nombre de vues d'entrée, à l'instar des modèles en ligne, et reconstruit un ensemble de 1 000 images en seulement 54 secondes, réalisant une accélération de 11,6 fois par rapport aux méthodes de référence utilisant l'attention softmax. Comme notre méthode conserve une capacité d'agrégation globale de la scène, notre erreur de reconstruction de carte de points surpasse largement celle des autres méthodes à temps linéaire. Enfin, nous démontrons les capacités de localisation visuelle de notre modèle en interrogeant la représentation de la scène avec des images non vues.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.