ChatPaper.aiChatPaper

Test3R: Aprendizaje para Reconstruir en 3D en Tiempo de Prueba

Test3R: Learning to Reconstruct 3D at Test Time

June 16, 2025
Autores: Yuheng Yuan, Qiuhong Shen, Shizun Wang, Xingyi Yang, Xinchao Wang
cs.AI

Resumen

Los métodos de correspondencia densa como DUSt3R regresan mapas de puntos por pares para la reconstrucción 3D. Sin embargo, la dependencia de la predicción por pares y la capacidad limitada de generalización restringen inherentemente la consistencia geométrica global. En este trabajo, presentamos Test3R, una técnica de aprendizaje en tiempo de prueba sorprendentemente simple que mejora significativamente la precisión geométrica. Utilizando tríos de imágenes (I_1, I_2, I_3), Test3R genera reconstrucciones a partir de los pares (I_1, I_2) y (I_1, I_3). La idea central es optimizar la red en tiempo de prueba mediante un objetivo auto-supervisado: maximizar la consistencia geométrica entre estas dos reconstrucciones con respecto a la imagen común I_1. Esto asegura que el modelo produzca salidas consistentes entre pares, independientemente de las entradas. Experimentos extensos demuestran que nuestra técnica supera significativamente a los métodos anteriores de última generación en las tareas de reconstrucción 3D y estimación de profundidad multi-vista. Además, es universalmente aplicable y casi sin costo, lo que facilita su aplicación a otros modelos y su implementación con un mínimo de sobrecarga de entrenamiento en tiempo de prueba y huella de parámetros. El código está disponible en https://github.com/nopQAQ/Test3R.
English
Dense matching methods like DUSt3R regress pairwise pointmaps for 3D reconstruction. However, the reliance on pairwise prediction and the limited generalization capability inherently restrict the global geometric consistency. In this work, we introduce Test3R, a surprisingly simple test-time learning technique that significantly boosts geometric accuracy. Using image triplets (I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and (I_1,I_3). The core idea is to optimize the network at test time via a self-supervised objective: maximizing the geometric consistency between these two reconstructions relative to the common image I_1. This ensures the model produces cross-pair consistent outputs, regardless of the inputs. Extensive experiments demonstrate that our technique significantly outperforms previous state-of-the-art methods on the 3D reconstruction and multi-view depth estimation tasks. Moreover, it is universally applicable and nearly cost-free, making it easily applied to other models and implemented with minimal test-time training overhead and parameter footprint. Code is available at https://github.com/nopQAQ/Test3R.
PDF262June 17, 2025