Свободная геометрия: уточнение трёхмерной реконструкции с помощью более длинных версий самой себя

Аннотация

Прямые (feed-forward) модели 3D-реконструкции эффективны, но жестки: после обучения они выполняют вывод в zero-shot режиме и не могут адаптироваться к тестовой сцене. В результате визуально правдоподобные реконструкции часто содержат ошибки, особенно в условиях окклюзий, бликов и неоднозначных визуальных ключей. Чтобы решить эту проблему, мы представляем Free Geometry — фреймворк, который позволяет прямым моделям 3D-реконструкции саморазвиваться во время тестирования без наличия эталонных 3D-данных. Наше ключевое наблюдение заключается в том, что при получении большего количества ракурсов модель выдает более надежные и согласованные между видами реконструкции. Используя это свойство, для заданной тестовой последовательности мы маскируем подмножество кадров, чтобы создать самообучаемую задачу. Free Geometry обеспечивает кросс-ракурсную согласованность признаков между представлениями, полученными из полных и частичных наблюдений, сохраняя при этом попарные отношения, подразумеваемые скрытыми кадрами. Такая само-супервизия позволяет выполнять быструю перекалибровку с помощью легковесных обновлений LoRA, занимая менее 2 минут на набор данных на одном GPU. Наш подход стабильно улучшает передовые фундаментальные модели, включая Depth Anything 3 и VGGT, на 4 эталонных наборах данных, обеспечивая среднее улучшение на 3.73% в точности оценки позы камеры и на 2.88% в предсказании карты точек. Код доступен по адресу https://github.com/hiteacherIamhumble/Free-Geometry .

English

Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .

Свободная геометрия: уточнение трёхмерной реконструкции с помощью более длинных версий самой себя

Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Аннотация

Support