ViDAR: 단안 영상 입력을 위한 비디오 확산 인식 4D 재구성
ViDAR: Video Diffusion-Aware 4D Reconstruction From Monocular Inputs
June 23, 2025
저자: Michal Nazarczuk, Sibi Catley-Chandar, Thomas Tanay, Zhensong Zhang, Gregory Slabaugh, Eduardo Pérez-Pellitero
cs.AI
초록
동적 신시점 합성(Dynamic Novel View Synthesis)은 움직이는 대상의 임의의 시점에서 사실적인 뷰를 생성하는 것을 목표로 합니다. 이 작업은 단안 비디오(monocular video)에 의존할 때 특히 어려운데, 이는 구조와 움직임을 분리하는 것이 잘 정의되지 않은 문제이며 지도 학습 데이터가 부족하기 때문입니다. 우리는 Video Diffusion-Aware Reconstruction (ViDAR)을 소개합니다. 이는 개인화된 확산 모델(personalised diffusion models)을 활용하여 가짜 다중 뷰(pseudo multi-view) 지도 신호를 합성하고, 이를 통해 가우시안 스플래팅(Gaussian splatting) 표현을 학습하는 새로운 4D 재구성 프레임워크입니다. 장면별 특성에 조건을 부여함으로써, ViDAR는 세밀한 외관 디테일을 복원하면서 단안 모호성(monocular ambiguity)으로 인한 아티팩트를 완화합니다. 확산 기반 지도의 시공간적 불일치 문제를 해결하기 위해, 우리는 확산 인식 손실 함수(diffusion-aware loss function)와 합성 뷰를 기본 장면 기하학과 정렬하는 카메라 포즈 최적화 전략을 제안합니다. 극단적인 시점 변화를 포함한 도전적인 벤치마크인 DyCheck에서의 실험 결과, ViDAR는 시각적 품질과 기하학적 일관성 측면에서 모든 최신 베이스라인을 능가하는 성능을 보여줍니다. 또한, ViDAR가 동적 영역에서 베이스라인 대비 강력한 개선을 이루었음을 강조하고, 움직임이 풍부한 장면 부분의 재구성 성능을 비교하기 위한 새로운 벤치마크를 제공합니다. 프로젝트 페이지: https://vidar-4d.github.io
English
Dynamic Novel View Synthesis aims to generate photorealistic views of moving
subjects from arbitrary viewpoints. This task is particularly challenging when
relying on monocular video, where disentangling structure from motion is
ill-posed and supervision is scarce. We introduce Video Diffusion-Aware
Reconstruction (ViDAR), a novel 4D reconstruction framework that leverages
personalised diffusion models to synthesise a pseudo multi-view supervision
signal for training a Gaussian splatting representation. By conditioning on
scene-specific features, ViDAR recovers fine-grained appearance details while
mitigating artefacts introduced by monocular ambiguity. To address the
spatio-temporal inconsistency of diffusion-based supervision, we propose a
diffusion-aware loss function and a camera pose optimisation strategy that
aligns synthetic views with the underlying scene geometry. Experiments on
DyCheck, a challenging benchmark with extreme viewpoint variation, show that
ViDAR outperforms all state-of-the-art baselines in visual quality and
geometric consistency. We further highlight ViDAR's strong improvement over
baselines on dynamic regions and provide a new benchmark to compare performance
in reconstructing motion-rich parts of the scene. Project page:
https://vidar-4d.github.io