ChatPaper.aiChatPaper

VGG-T^3: Масштабируемое автономное прямое 3D-восстановление

VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

February 26, 2026
Авторы: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep
cs.AI

Аннотация

Мы представляем масштабируемую модель 3D-реконструкции, которая решает ключевое ограничение автономных feed-forward методов: их вычислительные требования и требования к памяти растут квадратично относительно количества входных изображений. Наш подход основан на ключевом наблюдении, что это узкое место проистекает из представления геометрии сцены в пространстве ключ-значение (KV) переменной длины, которое мы преобразуем в многослойный перцептрон (MLP) фиксированного размера с помощью обучения во время тестирования. Модель VGG-T³ (Visual Geometry Grounded Test Time Training) масштабируется линейно относительно количества входных ракурсов, аналогично онлайн-моделям, и реконструирует коллекцию из 1000 изображений всего за 54 секунды, обеспечивая ускорение в 11,6 раз по сравнению с базовыми методами, использующими механизм внимания softmax. Поскольку наш метод сохраняет способность к глобальной агрегации сцены, ошибка реконструкции точечной карты значительно превосходит другие методы с линейной сложностью. Наконец, мы демонстрируем возможности визуальной локализации нашей модели путем запроса к представлению сцены с помощью ранее не виденных изображений.
English
We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T^3 (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a 1k image collection in just 54 seconds, achieving a 11.6times speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.
PDF112February 28, 2026