Test3R: Apprendimento della Ricostruzione 3D al Momento del Test

Abstract

I metodi di matching denso come DUSt3R regrediscono mappe di punti a coppie per la ricostruzione 3D. Tuttavia, la dipendenza dalla previsione a coppie e la limitata capacità di generalizzazione intrinsecamente restringono la coerenza geometrica globale. In questo lavoro, introduciamo Test3R, una tecnica di apprendimento al momento del test sorprendentemente semplice che migliora significativamente l'accuratezza geometrica. Utilizzando triplette di immagini (I_1,I_2,I_3), Test3R genera ricostruzioni dalle coppie (I_1,I_2) e (I_1,I_3). L'idea centrale è ottimizzare la rete al momento del test tramite un obiettivo auto-supervisionato: massimizzare la coerenza geometrica tra queste due ricostruzioni rispetto all'immagine comune I_1. Ciò garantisce che il modello produca output coerenti tra coppie, indipendentemente dagli input. Esperimenti estensivi dimostrano che la nostra tecnica supera significativamente i precedenti metodi all'avanguardia nei compiti di ricostruzione 3D e stima della profondità multi-vista. Inoltre, è universalmente applicabile e quasi a costo zero, rendendola facilmente applicabile ad altri modelli e implementabile con un sovraccarico minimo di addestramento al momento del test e un'impronta di parametri ridotta. Il codice è disponibile all'indirizzo https://github.com/nopQAQ/Test3R.

English

Dense matching methods like DUSt3R regress pairwise pointmaps for 3D reconstruction. However, the reliance on pairwise prediction and the limited generalization capability inherently restrict the global geometric consistency. In this work, we introduce Test3R, a surprisingly simple test-time learning technique that significantly boosts geometric accuracy. Using image triplets (I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and (I_1,I_3). The core idea is to optimize the network at test time via a self-supervised objective: maximizing the geometric consistency between these two reconstructions relative to the common image I_1. This ensures the model produces cross-pair consistent outputs, regardless of the inputs. Extensive experiments demonstrate that our technique significantly outperforms previous state-of-the-art methods on the 3D reconstruction and multi-view depth estimation tasks. Moreover, it is universally applicable and nearly cost-free, making it easily applied to other models and implemented with minimal test-time training overhead and parameter footprint. Code is available at https://github.com/nopQAQ/Test3R.

Test3R: Apprendimento della Ricostruzione 3D al Momento del Test

Test3R: Learning to Reconstruct 3D at Test Time

Abstract

Support