ChatPaper.aiChatPaper

VGG-T^3: Reconstrução 3D Feed-Forward Offline em Escala

VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

February 26, 2026
Autores: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI

Resumo

Apresentamos um modelo de reconstrução 3D escalável que aborda uma limitação crítica dos métodos *feed-forward* offline: seus requisitos computacionais e de memória crescem quadraticamente em relação ao número de imagens de entrada. Nossa abordagem é baseada na intuição fundamental de que esse gargalo decorre da representação do espaço Chave-Valor (KV) de comprimento variável da geometria da cena, que destilamos em uma *Multi-Layer Perceptron* (MLP) de tamanho fixo por meio de treinamento no momento do teste. O VGG-T³ (*Visual Geometry Grounded Test Time Training*) escala linearmente em relação ao número de visualizações de entrada, de forma semelhante aos modelos online, e reconstrói um conjunto de 1.000 imagens em apenas 54 segundos, alcançando uma aceleração de 11,6 vezes em relação às linhas de base que dependem de atenção *softmax*. Uma vez que nosso método mantém a capacidade de agregação global da cena, nosso erro de reconstrução do mapa de pontos supera outros métodos de tempo linear por amplas margens. Por fim, demonstramos as capacidades de localização visual do nosso modelo consultando a representação da cena com imagens não vistas.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.
PDF142March 16, 2026