Freie Geometrie: Verfeinerung der 3D-Rekonstruktion aus längeren Versionen ihrer selbst
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
April 15, 2026
Autoren: Yuhang Dai, Xingyi Yang
cs.AI
Zusammenfassung
Feed-forward 3D-Rekonstruktionsmodelle sind effizient, aber starr: Einmal trainiert, führen sie Inferenz in einem Zero-Shot-Verfahren durch und können sich nicht an die Testszenen anpassen. Infolgedessen enthalten visuell plausible Rekonstruktionen oft Fehler, insbesondere bei Verdeckungen, spiegelnden Reflexionen und mehrdeutigen Hinweisen. Um dies zu beheben, stellen wir Free Geometry vor, ein Framework, das es Feed-forward 3D-Rekonstruktionsmodellen ermöglicht, sich zur Testzeit selbst weiterzuentwickeln, ohne jegliche 3D-Ground-Truth-Daten. Unser zentraler Ansatz ist, dass das Model zuverlässigere und blickkonsistentere Rekonstruktionen erzeugt, wenn es mehr Ansichten erhält. Indem wir diese Eigenschaft nutzen, maskieren wir für eine Testsequenz eine Teilmenge der Frames, um eine selbstüberwachte Aufgabe zu konstruieren. Free Geometry erzwingt eine blickübergreifende Merkmalskonsistenz zwischen Repräsentationen aus vollständigen und teilweisen Beobachtungen, während gleichzeitig die paarweisen Beziehungen, die durch die ausgehaltenen Frames impliziert werden, beibehalten werden. Diese Selbstüberwachung ermöglicht eine schnelle Neukalibrierung durch leichte LoRA-Updates, die weniger als 2 Minuten pro Datensatz auf einer einzelnen GPU benötigen. Unser Ansatz verbessert durchgängig state-of-the-art Foundation-Modelle, einschließlich Depth Anything 3 und VGGT, über 4 Benchmark-Datensätze hinweg und erzielt eine durchschnittliche Verbesserung von 3,73 % in der Kamerapositionsgenauigkeit und 2,88 % in der Punktwolkenvorhersage. Code ist verfügbar unter https://github.com/hiteacherIamhumble/Free-Geometry.
English
Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .