Test3R: Lernen der 3D-Rekonstruktion zur Testzeit

papers.abstract

Dichte Matching-Methoden wie DUSt3R regressieren paarweise Punktkarten für die 3D-Rekonstruktion. Die Abhängigkeit von paarweisen Vorhersagen und die begrenzte Generalisierungsfähigkeit schränken jedoch die globale geometrische Konsistenz von Natur aus ein. In dieser Arbeit stellen wir Test3R vor, eine überraschend einfache Testzeit-Lernmethode, die die geometrische Genauigkeit erheblich steigert. Unter Verwendung von Bildtripletts (I_1,I_2,I_3) erzeugt Test3R Rekonstruktionen aus den Paaren (I_1,I_2) und (I_1,I_3). Der Kernansatz besteht darin, das Netzwerk zur Testzeit über ein selbstüberwachtes Ziel zu optimieren: die Maximierung der geometrischen Konsistenz zwischen diesen beiden Rekonstruktionen in Bezug auf das gemeinsame Bild I_1. Dies stellt sicher, dass das Modell übergreifend konsistente Ausgaben erzeugt, unabhängig von den Eingaben. Umfangreiche Experimente zeigen, dass unsere Methode die bisherigen State-of-the-Art-Verfahren bei der 3D-Rekonstruktion und der Multi-View-Tiefenschätzung deutlich übertrifft. Darüber hinaus ist sie universell anwendbar und nahezu kostenfrei, was eine einfache Anwendung auf andere Modelle und eine Implementierung mit minimalem Testzeit-Trainingsaufwand und Parameterbedarf ermöglicht. Der Code ist unter https://github.com/nopQAQ/Test3R verfügbar.

English

Dense matching methods like DUSt3R regress pairwise pointmaps for 3D reconstruction. However, the reliance on pairwise prediction and the limited generalization capability inherently restrict the global geometric consistency. In this work, we introduce Test3R, a surprisingly simple test-time learning technique that significantly boosts geometric accuracy. Using image triplets (I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and (I_1,I_3). The core idea is to optimize the network at test time via a self-supervised objective: maximizing the geometric consistency between these two reconstructions relative to the common image I_1. This ensures the model produces cross-pair consistent outputs, regardless of the inputs. Extensive experiments demonstrate that our technique significantly outperforms previous state-of-the-art methods on the 3D reconstruction and multi-view depth estimation tasks. Moreover, it is universally applicable and nearly cost-free, making it easily applied to other models and implemented with minimal test-time training overhead and parameter footprint. Code is available at https://github.com/nopQAQ/Test3R.

Test3R: Lernen der 3D-Rekonstruktion zur Testzeit

Test3R: Learning to Reconstruct 3D at Test Time

papers.abstract

Support