ChatPaper.aiChatPaper

Test3R : Apprentissage de la reconstruction 3D au moment du test

Test3R: Learning to Reconstruct 3D at Test Time

June 16, 2025
Auteurs: Yuheng Yuan, Qiuhong Shen, Shizun Wang, Xingyi Yang, Xinchao Wang
cs.AI

Résumé

Les méthodes de correspondance dense comme DUSt3R régressent des cartes de points par paires pour la reconstruction 3D. Cependant, la dépendance à la prédiction par paires et la capacité de généralisation limitée restreignent intrinsèquement la cohérence géométrique globale. Dans ce travail, nous introduisons Test3R, une technique d'apprentissage au moment du test étonnamment simple qui améliore significativement la précision géométrique. Utilisant des triplets d'images (I_1, I_2, I_3), Test3R génère des reconstructions à partir des paires (I_1, I_2) et (I_1, I_3). L'idée centrale est d'optimiser le réseau au moment du test via un objectif auto-supervisé : maximiser la cohérence géométrique entre ces deux reconstructions par rapport à l'image commune I_1. Cela garantit que le modèle produit des sorties cohérentes entre les paires, quelles que soient les entrées. Des expériences approfondies démontrent que notre technique surpasse significativement les méthodes précédentes de pointe dans les tâches de reconstruction 3D et d'estimation de profondeur multi-vues. De plus, elle est universellement applicable et pratiquement sans coût, ce qui la rend facilement applicable à d'autres modèles et implémentable avec une surcharge d'entraînement au test et une empreinte paramétrique minimales. Le code est disponible à l'adresse https://github.com/nopQAQ/Test3R.
English
Dense matching methods like DUSt3R regress pairwise pointmaps for 3D reconstruction. However, the reliance on pairwise prediction and the limited generalization capability inherently restrict the global geometric consistency. In this work, we introduce Test3R, a surprisingly simple test-time learning technique that significantly boosts geometric accuracy. Using image triplets (I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and (I_1,I_3). The core idea is to optimize the network at test time via a self-supervised objective: maximizing the geometric consistency between these two reconstructions relative to the common image I_1. This ensures the model produces cross-pair consistent outputs, regardless of the inputs. Extensive experiments demonstrate that our technique significantly outperforms previous state-of-the-art methods on the 3D reconstruction and multi-view depth estimation tasks. Moreover, it is universally applicable and nearly cost-free, making it easily applied to other models and implemented with minimal test-time training overhead and parameter footprint. Code is available at https://github.com/nopQAQ/Test3R.
PDF262June 17, 2025