Test3R: Aprendendo a Reconstruir em 3D no Momento do Teste
Test3R: Learning to Reconstruct 3D at Test Time
June 16, 2025
Autores: Yuheng Yuan, Qiuhong Shen, Shizun Wang, Xingyi Yang, Xinchao Wang
cs.AI
Resumo
Métodos de correspondência densa, como o DUSt3R, regridem mapas de pontos pareados para reconstrução 3D. No entanto, a dependência da previsão pareada e a capacidade limitada de generalização restringem inerentemente a consistência geométrica global. Neste trabalho, apresentamos o Test3R, uma técnica de aprendizado em tempo de teste surpreendentemente simples que aumenta significativamente a precisão geométrica. Utilizando trios de imagens (I_1, I_2, I_3), o Test3R gera reconstruções a partir dos pares (I_1, I_2) e (I_1, I_3). A ideia central é otimizar a rede em tempo de teste por meio de um objetivo auto-supervisionado: maximizar a consistência geométrica entre essas duas reconstruções em relação à imagem comum I_1. Isso garante que o modelo produza saídas consistentes entre pares, independentemente das entradas. Experimentos extensivos demonstram que nossa técnica supera significativamente os métodos state-of-the-art anteriores nas tarefas de reconstrução 3D e estimativa de profundidade multi-visão. Além disso, ela é universalmente aplicável e praticamente sem custo, tornando-a facilmente aplicável a outros modelos e implementável com um mínimo de sobrecarga de treinamento em tempo de teste e pegada de parâmetros. O código está disponível em https://github.com/nopQAQ/Test3R.
English
Dense matching methods like DUSt3R regress pairwise pointmaps for 3D
reconstruction. However, the reliance on pairwise prediction and the limited
generalization capability inherently restrict the global geometric consistency.
In this work, we introduce Test3R, a surprisingly simple test-time learning
technique that significantly boosts geometric accuracy. Using image triplets
(I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and
(I_1,I_3). The core idea is to optimize the network at test time via a
self-supervised objective: maximizing the geometric consistency between these
two reconstructions relative to the common image I_1. This ensures the model
produces cross-pair consistent outputs, regardless of the inputs. Extensive
experiments demonstrate that our technique significantly outperforms previous
state-of-the-art methods on the 3D reconstruction and multi-view depth
estimation tasks. Moreover, it is universally applicable and nearly cost-free,
making it easily applied to other models and implemented with minimal test-time
training overhead and parameter footprint. Code is available at
https://github.com/nopQAQ/Test3R.