ChatPaper.aiChatPaper

Geometria Livre: Refinando a Reconstrução 3D a Partir de Versões Mais Longas de Si Mesma

Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

April 15, 2026
Autores: Yuhang Dai, Xingyi Yang
cs.AI

Resumo

Os modelos de reconstrução 3D *feed-forward* são eficientes mas rígidos: uma vez treinados, realizam inferência de forma *zero-shot* e não conseguem adaptar-se à cena de teste. Consequentemente, reconstruções visualmente plausíveis frequentemente contêm erros, particularmente sob oclusões, reflexos especulares e pistas ambíguas. Para resolver isto, introduzimos o *Free Geometry*, um *framework* que permite aos modelos de reconstrução 3D *feed-forward* auto-evoluírem durante o teste sem qualquer *ground truth* 3D. A nossa perceção fundamental é que, quando o modelo recebe mais vistas, produz reconstruções mais fiáveis e consistentes entre vistas. Aproveitando esta propriedade, dada uma sequência de teste, mascaramos um subconjunto de *frames* para construir uma tarefa auto-supervisionada. O *Free Geometry* impõe consistência de características entre vistas (*cross-view feature consistency*) entre representações de observações completas e parciais, mantendo ao mesmo tempo as relações pareadas (*pairwise relations*) implícitas nos *frames* omitidos. Esta auto-supervisão permite uma rápida recalibração através de atualizações leves com LoRA, demorando menos de 2 minutos por *dataset* numa única GPU. A nossa abordagem melhora consistentemente modelos de base (*foundation models*) de última geração, incluindo o *Depth Anything 3* e o *VGGT*, em 4 conjuntos de dados de referência, resultando numa melhoria média de 3,73% na precisão da pose da câmara e de 2,88% na previsão do mapa de pontos. O código está disponível em https://github.com/hiteacherIamhumble/Free-Geometry.
English
Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .
PDF152April 26, 2026