UniGeo: 비디오 확산 모델을 제어하여 통합적 일관성 있는 기하학 추정 달성하기
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation
May 30, 2025
저자: Yang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi
cs.AI
초록
최근, 단안 기하학적 추정(예: 깊이 및 법선)을 지원하기 위해 확산 모델 사전 정보를 활용하는 방법들이 강력한 일반화 능력으로 인해 상당한 주목을 받고 있습니다. 그러나 대부분의 기존 연구는 개별 비디오 프레임의 카메라 좌표계 내에서 기하학적 속성을 추정하는 데 초점을 맞추고 있으며, 확산 모델이 프레임 간 대응 관계를 결정할 수 있는 본질적인 능력을 간과하고 있습니다. 본 연구에서는 적절한 설계와 미세 조정을 통해 비디오 생성 모델의 내재적 일관성을 효과적으로 활용하여 일관된 기하학적 추정을 수행할 수 있음을 보여줍니다. 구체적으로, 우리는 1) 비디오 프레임과 동일한 대응 관계를 공유하는 전역 좌표계의 기하학적 속성을 예측 대상으로 선택하고, 2) 위치 인코딩을 재사용하는 새로운 효율적인 조건화 방법을 도입하며, 3) 동일한 대응 관계를 공유하는 여러 기하학적 속성에 대한 공동 학습을 통해 성능을 향상시킵니다. 우리의 결과는 비디오에서 전역 기하학적 속성을 예측하는 데 있어 우수한 성능을 달성하며, 재구성 작업에 직접 적용할 수 있습니다. 정적 비디오 데이터만으로 훈련된 경우에도, 우리의 접근 방식은 동적 비디오 장면으로 일반화할 수 있는 잠재력을 보여줍니다.
English
Recently, methods leveraging diffusion model priors to assist monocular
geometric estimation (e.g., depth and normal) have gained significant attention
due to their strong generalization ability. However, most existing works focus
on estimating geometric properties within the camera coordinate system of
individual video frames, neglecting the inherent ability of diffusion models to
determine inter-frame correspondence. In this work, we demonstrate that,
through appropriate design and fine-tuning, the intrinsic consistency of video
generation models can be effectively harnessed for consistent geometric
estimation. Specifically, we 1) select geometric attributes in the global
coordinate system that share the same correspondence with video frames as the
prediction targets, 2) introduce a novel and efficient conditioning method by
reusing positional encodings, and 3) enhance performance through joint training
on multiple geometric attributes that share the same correspondence. Our
results achieve superior performance in predicting global geometric attributes
in videos and can be directly applied to reconstruction tasks. Even when
trained solely on static video data, our approach exhibits the potential to
generalize to dynamic video scenes.