Geometria Libera: Raffinamento della Ricostruzione 3D da Versioni Più Lunghe di Sé Stessa
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
April 15, 2026
Autori: Yuhang Dai, Xingyi Yang
cs.AI
Abstract
I modelli di ricostruzione 3D feed-forward sono efficienti ma rigidi: una volta addestrati, eseguono inferenza in modo zero-shot e non possono adattarsi alla scena di test. Di conseguenza, le ricostruzioni visivamente plausibili contengono spesso errori, in particolare in caso di occlusioni, riflessi speculari e segnali ambigui. Per affrontare questo problema, introduciamo Free Geometry, un framework che consente ai modelli di ricostruzione 3D feed-forward di auto-evolversi durante il test senza alcuna ground truth 3D. La nostra intuizione chiave è che, quando il modello riceve più viste, produce ricostruzioni più affidabili e coerenti tra le viste. Sfruttando questa proprietà, data una sequenza di test, mascheriamo un sottoinsieme di frame per costruire un task auto-supervisionato. Free Geometry impone la consistenza delle caratteristiche tra le viste (cross-view feature consistency) tra le rappresentazioni derivate da osservazioni complete e parziali, mantenendo allo stesso tempo le relazioni pairwise implicite nei frame esclusi. Questa auto-supervisione consente una rapida ricalibrazione tramite aggiornamenti LoRA leggeri, richiedendo meno di 2 minuti per dataset su una singola GPU. Il nostro approccio migliora costantemente modelli foundation all'avanguardia, inclusi Depth Anything 3 e VGGT, su 4 dataset di benchmark, ottenendo un miglioramento medio del 3,73% nell'accuratezza della posa della telecamera e del 2,88% nella predizione della mappa di punti. Il codice è disponibile all'indirizzo https://github.com/hiteacherIamhumble/Free-Geometry.
English
Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .