Géométrie libre : Raffinement de la reconstruction 3D à partir de versions plus longues d'elle-même

Résumé

Les modèles de reconstruction 3D par propagation directe sont efficaces mais rigides : une fois entraînés, ils effectuent des inférences de manière zero-shot et ne peuvent pas s'adapter à la scène de test. En conséquence, les reconstructions visuellement plausibles contiennent souvent des erreurs, particulièrement sous les occlusions, les réflexions spéculaires et les indices ambigus. Pour résoudre ce problème, nous présentons Free Geometry, un cadre permettant aux modèles de reconstruction 3D par propagation directe de s'auto-évoluer au moment du test sans aucune vérité terrain 3D. Notre idée clé est que, lorsque le modèle reçoit plus de vues, il produit des reconstructions plus fiables et cohérentes entre les vues. En tirant parti de cette propriété, étant donné une séquence de test, nous masquons un sous-ensemble d'images pour construire une tâche auto-supervisée. Free Geometry impose une cohérence des caractéristiques inter-vues entre les représentations issues d'observations complètes et partielles, tout en préservant les relations par paires impliquées par les images retenues. Cette auto-supervision permet un recalibrage rapide via des mises à jour légères LoRA, prenant moins de 2 minutes par jeu de données sur un seul GPU. Notre approche améliore constamment les modèles de fond état-de-l'art, incluant Depth Anything 3 et VGGT, sur 4 bases de données de référence, produisant une amélioration moyenne de 3,73% en précision de pose caméra et de 2,88% en prédiction de carte de points. Le code est disponible à l'adresse https://github.com/hiteacherIamhumble/Free-Geometry.

English

Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .

Géométrie libre : Raffinement de la reconstruction 3D à partir de versions plus longues d'elle-même

Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Résumé

Support