ChatPaper.aiChatPaper

Diffuman4D: 시공간 확산 모델을 활용한 희소 뷰 비디오 기반 4D 일관성 인간 뷰 합성

Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models

July 17, 2025
저자: Yudong Jin, Sida Peng, Xuan Wang, Tao Xie, Zhen Xu, Yifan Yang, Yujun Shen, Hujun Bao, Xiaowei Zhou
cs.AI

초록

본 논문은 희소 뷰 비디오를 입력으로 사용하여 인간의 고품질 뷰 합성 문제를 다룬다. 기존 방법들은 4D 확산 모델을 활용하여 새로운 시점에서의 비디오를 생성함으로써 관측 부족 문제를 해결한다. 그러나 이러한 모델들에서 생성된 비디오는 종종 시공간적 일관성이 부족하여 뷰 합성 품질을 저하시킨다. 본 논문에서는 4D 확산 모델의 시공간적 일관성을 강화하기 위한 새로운 슬라이딩 반복적 노이즈 제거 프로세스를 제안한다. 구체적으로, 특정 시점과 타임스탬프에서의 이미지, 카메라 포즈, 인간 포즈를 인코딩하는 잠재 그리드를 정의한 후, 슬라이딩 윈도우를 통해 공간 및 시간 차원을 따라 잠재 그리드를 번갈아가며 노이즈 제거하고, 최종적으로 해당 노이즈 제거된 잠재에서 목표 시점의 비디오를 디코딩한다. 반복적 슬라이딩을 통해 정보가 잠재 그리드 전반에 충분히 흐르게 되어 확산 모델이 큰 수용 영역을 얻을 수 있으므로 출력의 4D 일관성을 강화하면서도 GPU 메모리 소비를 감당 가능한 수준으로 유지한다. DNA-Rendering 및 ActorsHQ 데이터셋에서의 실험 결과, 본 방법이 고품질이고 일관된 새로운 뷰 비디오를 합성할 수 있으며 기존 접근법을 크게 능가함을 보여준다. 인터랙티브 데모 및 비디오 결과는 프로젝트 페이지에서 확인할 수 있다: https://diffuman4d.github.io/ .
English
This paper addresses the challenge of high-fidelity view synthesis of humans with sparse-view videos as input. Previous methods solve the issue of insufficient observation by leveraging 4D diffusion models to generate videos at novel viewpoints. However, the generated videos from these models often lack spatio-temporal consistency, thus degrading view synthesis quality. In this paper, we propose a novel sliding iterative denoising process to enhance the spatio-temporal consistency of the 4D diffusion model. Specifically, we define a latent grid in which each latent encodes the image, camera pose, and human pose for a certain viewpoint and timestamp, then alternately denoising the latent grid along spatial and temporal dimensions with a sliding window, and finally decode the videos at target viewpoints from the corresponding denoised latents. Through the iterative sliding, information flows sufficiently across the latent grid, allowing the diffusion model to obtain a large receptive field and thus enhance the 4D consistency of the output, while making the GPU memory consumption affordable. The experiments on the DNA-Rendering and ActorsHQ datasets demonstrate that our method is able to synthesize high-quality and consistent novel-view videos and significantly outperforms the existing approaches. See our project page for interactive demos and video results: https://diffuman4d.github.io/ .
PDF261July 18, 2025