확산 모델을 활용한 시공간 제어
Controlling Space and Time with Diffusion Models
July 10, 2024
저자: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet
cs.AI
초록
우리는 일반 장면의 하나 이상의 이미지와 카메라 포즈 및 타임스탬프 세트를 조건으로 하는 4D 새로운 시점 합성(NVS)을 위한 계단식 확산 모델인 4DiM을 제안합니다. 4D 학습 데이터의 제한된 가용성으로 인한 문제를 극복하기 위해, 우리는 3D(카메라 포즈 포함), 4D(포즈+시간) 및 비디오(시간은 있지만 포즈는 없음) 데이터에 대한 공동 학습을 주장하고 이를 가능하게 하는 새로운 아키텍처를 제안합니다. 또한, 우리는 단안 메트릭 깊이 추정기를 사용하여 SfM 포즈 데이터를 보정하여 메트릭 스케일 카메라 제어를 가능하게 하는 것을 주장합니다. 모델 평가를 위해, 우리는 현재 평가 방식의 단점을 보완하고 풍부하게 하기 위한 새로운 메트릭을 도입하여, 기존의 3D NVS를 위한 확산 모델들과 비교했을 때 충실도와 포즈 제어 모두에서 최첨단 결과를 보여주면서 동시에 시간적 동역학을 처리할 수 있는 능력을 추가합니다. 4DiM은 또한 개선된 파노라마 스티칭, 포즈 조건 비디오 간 변환 및 여러 다른 작업에도 사용됩니다. 개요는 https://4d-diffusion.github.io를 참조하십시오.
English
We present 4DiM, a cascaded diffusion model for 4D novel view synthesis
(NVS), conditioned on one or more images of a general scene, and a set of
camera poses and timestamps. To overcome challenges due to limited availability
of 4D training data, we advocate joint training on 3D (with camera pose), 4D
(pose+time) and video (time but no pose) data and propose a new architecture
that enables the same. We further advocate the calibration of SfM posed data
using monocular metric depth estimators for metric scale camera control. For
model evaluation, we introduce new metrics to enrich and overcome shortcomings
of current evaluation schemes, demonstrating state-of-the-art results in both
fidelity and pose control compared to existing diffusion models for 3D NVS,
while at the same time adding the ability to handle temporal dynamics. 4DiM is
also used for improved panorama stitching, pose-conditioned video to video
translation, and several other tasks. For an overview see
https://4d-diffusion.github.ioSummary
AI-Generated Summary