ChatPaper.aiChatPaper

4Diffusion: 4D 생성을 위한 다중 뷰 비디오 확산 모델

4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31, 2024
저자: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

초록

현재의 4D 생성 방법들은 고급 확산 생성 모델의 도움으로 주목할 만한 성과를 달성했습니다. 그러나 이러한 방법들은 다중 뷰 시공간 모델링이 부족하고, 여러 확산 모델로부터 다양한 사전 지식을 통합하는 데 어려움을 겪으며, 일관되지 않은 시간적 외관과 깜빡임 문제를 야기합니다. 본 논문에서는 단안 비디오로부터 시공간적으로 일관된 4D 콘텐츠를 생성하기 위한 새로운 4D 생성 파이프라인인 4Diffusion을 제안합니다. 먼저, 다중 뷰 비디오 생성을 위해 고안된 통합 확산 모델을 설계합니다. 이 모델은 고정된 3D 인식 확산 모델에 학습 가능한 모션 모듈을 통합하여 다중 뷰 시공간 상관관계를 포착합니다. 선별된 데이터셋에 대해 학습한 후, 우리의 확산 모델은 합리적인 시간적 일관성을 획득하며, 3D 인식 확산 모델의 일반화 능력과 공간적 일관성을 본질적으로 보존합니다. 이후, 우리는 다중 뷰 비디오 확산 모델을 기반으로 한 4D 인식 점수 증류 샘플링 손실을 제안하여 동적 NeRF로 매개변수화된 4D 표현을 최적화합니다. 이는 여러 확산 모델로부터 발생하는 불일치를 제거하여 시공간적으로 일관된 4D 콘텐츠를 생성할 수 있도록 합니다. 또한, 외관 세부 사항을 강화하고 동적 NeRF의 학습을 촉진하기 위해 앵커 손실을 고안했습니다. 광범위한 정성적 및 정량적 실험을 통해 우리의 방법이 이전 방법들에 비해 우수한 성능을 달성함을 입증합니다.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view spatial-temporal modeling and encounter challenges in integrating diverse prior knowledge from multiple diffusion models, resulting in inconsistent temporal appearance and flickers. In this paper, we propose a novel 4D generation pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent 4D content from a monocular video. We first design a unified diffusion model tailored for multi-view video generation by incorporating a learnable motion module into a frozen 3D-aware diffusion model to capture multi-view spatial-temporal correlations. After training on a curated dataset, our diffusion model acquires reasonable temporal consistency and inherently preserves the generalizability and spatial consistency of the 3D-aware diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling loss, which is based on our multi-view video diffusion model, to optimize 4D representation parameterized by dynamic NeRF. This aims to eliminate discrepancies arising from multiple diffusion models, allowing for generating spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to enhance the appearance details and facilitate the learning of dynamic NeRF. Extensive qualitative and quantitative experiments demonstrate that our method achieves superior performance compared to previous methods.
PDF151December 12, 2024