Vrije Meetkunde: Verfijning van 3D-reconstructie uit langere versies van zichzelf

Samenvatting

Feed-forward 3D-reconstructiemodellen zijn efficiënt maar rigide: eenmaal getraind voeren ze inferentie uit op een zero-shot-manier en kunnen ze zich niet aanpassen aan de testscene. Hierdoor bevatten visueel plausibele reconstructies vaak fouten, vooral bij occlusies, reflecties en ambigue aanwijzingen. Om dit aan te pakken, introduceren we Free Geometry, een raamwerk dat feed-forward 3D-reconstructiemodellen in staat stelt om zichzelf tijdens de testfase te ontwikkelen zonder enige 3D-groundtruth. Onze belangrijkste inzicht is dat wanneer het model meer aanzichten ontvangt, het betrouwbaardere en consistentere reconstructies produceert. Gebruikmakend van deze eigenschap, maskeren we bij een testsequentie een subset van frames om een zelfgesuperviseerde taak te construeren. Free Geometry handhaaft kruisbeeld-functieconsistentie tussen representaties van volledige en gedeeltelijke observaties, terwijl de paarsgewijze relaties die worden gesuggereerd door de weggelaten frames behouden blijven. Deze zelfsupervisie maakt een snelle herkalibratie mogelijk via lichtgewicht LoRA-updates, wat minder dan 2 minuten per dataset op een enkele GPU kost. Onze aanpak verbetert consistent state-of-the-art foundationmodellen, waaronder Depth Anything 3 en VGGT, over 4 benchmarkdatasets, wat resulteert in een gemiddelde verbetering van 3,73% in camerapositienauwkeurigheid en 2,88% in puntenkaartvoorspelling. Code is beschikbaar op https://github.com/hiteacherIamhumble/Free-Geometry.

English

Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .

Vrije Meetkunde: Verfijning van 3D-reconstructie uit langere versies van zichzelf

Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Samenvatting

Support