Test3R: Leren om 3D te reconstrueren tijdens de testfase
Test3R: Learning to Reconstruct 3D at Test Time
June 16, 2025
Auteurs: Yuheng Yuan, Qiuhong Shen, Shizun Wang, Xingyi Yang, Xinchao Wang
cs.AI
Samenvatting
Dichte matchingmethoden zoals DUSt3R regresseren paarsgewijze puntkaarten voor 3D-reconstructie. De afhankelijkheid van paarsgewijze voorspelling en de beperkte generalisatiecapaciteit beperken echter inherent de globale geometrische consistentie. In dit werk introduceren we Test3R, een verrassend eenvoudige test-time leertechniek die de geometrische nauwkeurigheid aanzienlijk verbetert. Met behulp van beeldtripletten (I_1,I_2,I_3) genereert Test3R reconstructies uit paren (I_1,I_2) en (I_1,I_3). De kernidee is om het netwerk tijdens de testfase te optimaliseren via een zelfgesuperviseerd doel: het maximaliseren van de geometrische consistentie tussen deze twee reconstructies ten opzichte van het gemeenschappelijke beeld I_1. Dit zorgt ervoor dat het model kruispaar-consistente uitvoer produceert, ongeacht de invoer. Uitgebreide experimenten tonen aan dat onze techniek aanzienlijk beter presteert dan eerdere state-of-the-art methoden op het gebied van 3D-reconstructie en multi-view diepteschatting. Bovendien is het universeel toepasbaar en vrijwel kosteloos, waardoor het eenvoudig kan worden toegepast op andere modellen en geïmplementeerd kan worden met minimale test-time trainingsoverhead en parameteromvang. Code is beschikbaar op https://github.com/nopQAQ/Test3R.
English
Dense matching methods like DUSt3R regress pairwise pointmaps for 3D
reconstruction. However, the reliance on pairwise prediction and the limited
generalization capability inherently restrict the global geometric consistency.
In this work, we introduce Test3R, a surprisingly simple test-time learning
technique that significantly boosts geometric accuracy. Using image triplets
(I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and
(I_1,I_3). The core idea is to optimize the network at test time via a
self-supervised objective: maximizing the geometric consistency between these
two reconstructions relative to the common image I_1. This ensures the model
produces cross-pair consistent outputs, regardless of the inputs. Extensive
experiments demonstrate that our technique significantly outperforms previous
state-of-the-art methods on the 3D reconstruction and multi-view depth
estimation tasks. Moreover, it is universally applicable and nearly cost-free,
making it easily applied to other models and implemented with minimal test-time
training overhead and parameter footprint. Code is available at
https://github.com/nopQAQ/Test3R.