Geometría Libre: Refinamiento de la Reconstrucción 3D a partir de Versiones Más Largas de Sí Misma
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
April 15, 2026
Autores: Yuhang Dai, Xingyi Yang
cs.AI
Resumen
Los modelos de reconstrucción 3D de avance directo son eficientes pero rígidos: una vez entrenados, realizan inferencia de manera inmediata y no pueden adaptarse a la escena de prueba. Como resultado, las reconstrucciones visualmente plausibles a menudo contienen errores, particularmente bajo oclusiones, reflexiones especulares y señales ambiguas. Para abordar esto, presentamos Free Geometry, un marco que permite a los modelos de reconstrucción 3D de avance directo auto-evolucionar durante la prueba sin ninguna verdad de terreno 3D. Nuestra idea clave es que, cuando el modelo recibe más vistas, produce reconstrucciones más confiables y consistentes entre vistas. Aprovechando esta propiedad, dada una secuencia de prueba, enmascaramos un subconjunto de fotogramas para construir una tarea auto-supervisada. Free Geometry aplica consistencia de características entre vistas entre las representaciones de observaciones completas y parciales, mientras mantiene las relaciones por pares implícitas en los fotogramas excluidos. Esta auto-supervisión permite un reajuste rápido mediante actualizaciones ligeras de LoRA, tomando menos de 2 minutos por conjunto de datos en una sola GPU. Nuestro enfoque mejora consistentemente los modelos fundacionales de última generación, incluyendo Depth Anything 3 y VGGT, en 4 conjuntos de datos de referencia, logrando una mejora promedio del 3.73% en la precisión de la pose de la cámara y del 2.88% en la predicción del mapa de puntos. El código está disponible en https://github.com/hiteacherIamhumble/Free-Geometry.
English
Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .