자유 형상 기하학: 더 긴 버전의 자기 자신으로부터 3D 재구성 개선하기
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
April 15, 2026
저자: Yuhang Dai, Xingyi Yang
cs.AI
초록
피드-포워드(feed-forward) 3D 복원 모델은 효율적이지만 경직되어 있습니다: 일단 훈련되면 제로-샷(zero-shot) 방식으로 추론을 수행하며 테스트 장면에 적응할 수 없습니다. 그 결과, 시각적으로 그럴듯한 복원 결과에도 특히 폐색, 경면 반사, 모호한 단서 상황에서 오류가 포함되는 경우가 많습니다. 이를 해결하기 위해 우리는 피드-포워드 3D 복원 모델이 3D 실측 데이터 없이도 테스트 시간에 자기 진화(self-evolve)할 수 있도록 하는 프레임워크인 Free Geometry를 소개합니다. 우리의 핵심 통찰은 모델이 더 많은 시점을 수신할수록 더 신뢰할 수 있고 시점 일관성 있는(view-consistent) 복원 결과를 생성한다는 것입니다. 이 특성을 활용하여, 주어진 테스트 시퀀스에서 프레임의 부분 집합을 마스킹하여 자기-지도(self-supervised) 작업을 구성합니다. Free Geometry는 전체 관측과 부분 관측에서 얻은 표현 간의 교차-시점 특징 일관성(cross-view feature consistency)을 강화하면서, 생략된(hidden-out) 프레임들이 함의하는 쌍별 관계(pairwise relations)를 유지합니다. 이 자기-지도 학습을 통해 경량 LoRA 업데이트를 통한 빠른 재조정(recalibration)이 가능하며, 단일 GPU에서 데이터셋당 2분 미만이 소요됩니다. 우리의 접근 방식은 Depth Anything 3 및 VGGT를 포함한 최첨단 파운데이션 모델(foundation model)들을 4개의 벤치마크 데이터셋에서 일관되게 개선하며, 카메라 포즈 정확도에서는 평균 3.73%, 포인트 맵 예측에서는 평균 2.88%의 향상을 가져옵니다. 코드는 https://github.com/hiteacherIamhumble/Free-Geometry 에서 이용 가능합니다.
English
Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .