Test3R: Обучение реконструкции 3D во время тестирования
Test3R: Learning to Reconstruct 3D at Test Time
June 16, 2025
Авторы: Yuheng Yuan, Qiuhong Shen, Shizun Wang, Xingyi Yang, Xinchao Wang
cs.AI
Аннотация
Методы плотного сопоставления, такие как DUSt3R, регрессируют попарные карты точек для 3D-реконструкции. Однако зависимость от попарного предсказания и ограниченная способность к обобщению по своей природе ограничивают глобальную геометрическую согласованность. В данной работе мы представляем Test3R — удивительно простую технику обучения на этапе тестирования, которая значительно повышает геометрическую точность. Используя тройки изображений (I_1, I_2, I_3), Test3R генерирует реконструкции из пар (I_1, I_2) и (I_1, I_3). Основная идея заключается в оптимизации сети на этапе тестирования с помощью самоконтролируемой цели: максимизации геометрической согласованности между этими двумя реконструкциями относительно общего изображения I_1. Это гарантирует, что модель будет выдавать согласованные результаты для разных пар, независимо от входных данных. Многочисленные эксперименты показывают, что наш метод значительно превосходит предыдущие передовые методы в задачах 3D-реконструкции и оценки глубины на основе нескольких видов. Более того, он универсально применим и практически бесплатен, что позволяет легко адаптировать его к другим моделям и реализовать с минимальными затратами на обучение на этапе тестирования и малым количеством параметров. Код доступен по адресу https://github.com/nopQAQ/Test3R.
English
Dense matching methods like DUSt3R regress pairwise pointmaps for 3D
reconstruction. However, the reliance on pairwise prediction and the limited
generalization capability inherently restrict the global geometric consistency.
In this work, we introduce Test3R, a surprisingly simple test-time learning
technique that significantly boosts geometric accuracy. Using image triplets
(I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and
(I_1,I_3). The core idea is to optimize the network at test time via a
self-supervised objective: maximizing the geometric consistency between these
two reconstructions relative to the common image I_1. This ensures the model
produces cross-pair consistent outputs, regardless of the inputs. Extensive
experiments demonstrate that our technique significantly outperforms previous
state-of-the-art methods on the 3D reconstruction and multi-view depth
estimation tasks. Moreover, it is universally applicable and nearly cost-free,
making it easily applied to other models and implemented with minimal test-time
training overhead and parameter footprint. Code is available at
https://github.com/nopQAQ/Test3R.