VGG-T^3: Reconstrucción 3D fuera de línea de avance directo a gran escala
VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale
February 26, 2026
Autores: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI
Resumen
Presentamos un modelo de reconstrucción 3D escalable que aborda una limitación crítica de los métodos *feed-forward* fuera de línea: sus requisitos computacionales y de memoria crecen cuadráticamente con respecto al número de imágenes de entrada. Nuestro enfoque se basa en la idea clave de que este cuello de botella surge de la representación de la geometría de la escena en un espacio Clave-Valor (KV) de longitud variable, el cual destilamos en un Perceptrón Multicapa (MLP) de tamaño fijo mediante entrenamiento en el momento de la prueba. VGG-T³ (*Visual Geometry Grounded Test Time Training*) escala linealmente con respecto al número de vistas de entrada, de manera similar a los modelos en línea, y reconstruye una colección de 1k imágenes en solo 54 segundos, logrando una aceleración de 11.6 veces sobre los métodos base que dependen de la atención *softmax*. Dado que nuestro método conserva la capacidad de agregación global de la escena, nuestro error de reconstrucción del mapa de puntos supera por un amplio margen a otros métodos de tiempo lineal. Finalmente, demostramos las capacidades de localización visual de nuestro modelo consultando la representación de la escena con imágenes no vistas.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.