Test3R: テスト時に3D再構成を学習する
Test3R: Learning to Reconstruct 3D at Test Time
June 16, 2025
著者: Yuheng Yuan, Qiuhong Shen, Shizun Wang, Xingyi Yang, Xinchao Wang
cs.AI
要旨
DUSt3Rのような密なマッチング手法は、3D再構築のためにペアワイズポイントマップを回帰します。しかし、ペアワイズ予測への依存と限られた汎化能力は、本質的にグローバルな幾何学的整合性を制限します。本研究では、Test3Rという驚くほどシンプルなテスト時学習技術を紹介し、幾何学的精度を大幅に向上させます。Test3Rは画像トリプレット(I_1, I_2, I_3)を使用し、ペア(I_1, I_2)と(I_1, I_3)から再構築を生成します。核心となるアイデアは、テスト時に自己教師あり目的関数を介してネットワークを最適化することです:共通の画像I_1に対するこれら2つの再構築間の幾何学的整合性を最大化します。これにより、モデルは入力に関係なく、クロスペア整合性のある出力を生成します。広範な実験により、本手法が3D再構築および多視点深度推定タスクにおいて、従来の最先端手法を大幅に上回ることが実証されました。さらに、本手法は普遍的に適用可能でほぼコストフリーであり、他のモデルに容易に適用でき、最小限のテスト時トレーニングオーバーヘッドとパラメータフットプリントで実装できます。コードはhttps://github.com/nopQAQ/Test3Rで公開されています。
English
Dense matching methods like DUSt3R regress pairwise pointmaps for 3D
reconstruction. However, the reliance on pairwise prediction and the limited
generalization capability inherently restrict the global geometric consistency.
In this work, we introduce Test3R, a surprisingly simple test-time learning
technique that significantly boosts geometric accuracy. Using image triplets
(I_1,I_2,I_3), Test3R generates reconstructions from pairs (I_1,I_2) and
(I_1,I_3). The core idea is to optimize the network at test time via a
self-supervised objective: maximizing the geometric consistency between these
two reconstructions relative to the common image I_1. This ensures the model
produces cross-pair consistent outputs, regardless of the inputs. Extensive
experiments demonstrate that our technique significantly outperforms previous
state-of-the-art methods on the 3D reconstruction and multi-view depth
estimation tasks. Moreover, it is universally applicable and nearly cost-free,
making it easily applied to other models and implemented with minimal test-time
training overhead and parameter footprint. Code is available at
https://github.com/nopQAQ/Test3R.