Диффузия: Многозрительная модель диффузии видео для генерации 4D.
4Diffusion: Multi-view Video Diffusion Model for 4D Generation
May 31, 2024
Авторы: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
Аннотация
Современные методы генерации 4D изображений достигли значительной эффективности благодаря применению передовых диффузионных генеративных моделей. Однако эти методы лишены многопроекционного пространственно-временного моделирования и сталкиваются с проблемами интеграции разнообразных априорных знаний из нескольких моделей диффузии, что приводит к несогласованному временному появлению и мерцаниям. В данной статье мы предлагаем новый пайплайн генерации 4D изображений, названный 4Diffusion, направленный на создание пространственно-временно согласованного 4D контента из монокулярного видео. Сначала мы разрабатываем объединенную модель диффузии, специально предназначенную для генерации многопроекционного видео путем внедрения обучаемого модуля движения в замороженную модель диффузии, осведомленную о трех измерениях, для захвата многопроекционных пространственно-временных корреляций. После обучения на отобранном наборе данных наша модель диффузии приобретает разумную временную согласованность и встроенно сохраняет обобщаемость и пространственную согласованность модели диффузии, осведомленной о трех измерениях. Затем мы предлагаем потерю выборки 4D-aware Score Distillation, основанную на нашей модели диффузии многопроекционного видео, для оптимизации 4D представления, параметризованного динамическим NeRF. Это направлено на устранение расхождений, возникающих из-за нескольких моделей диффузии, что позволяет создавать пространственно-временно согласованный 4D контент. Более того, мы разрабатываем потерю якоря для улучшения деталей внешнего вида и облегчения обучения динамического NeRF. Обширные качественные и количественные эксперименты демонстрируют, что наш метод достигает более высокой производительности по сравнению с предыдущими методами.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid
of advanced diffusion generative models. However, these methods lack multi-view
spatial-temporal modeling and encounter challenges in integrating diverse prior
knowledge from multiple diffusion models, resulting in inconsistent temporal
appearance and flickers. In this paper, we propose a novel 4D generation
pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent
4D content from a monocular video. We first design a unified diffusion model
tailored for multi-view video generation by incorporating a learnable motion
module into a frozen 3D-aware diffusion model to capture multi-view
spatial-temporal correlations. After training on a curated dataset, our
diffusion model acquires reasonable temporal consistency and inherently
preserves the generalizability and spatial consistency of the 3D-aware
diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling
loss, which is based on our multi-view video diffusion model, to optimize 4D
representation parameterized by dynamic NeRF. This aims to eliminate
discrepancies arising from multiple diffusion models, allowing for generating
spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to
enhance the appearance details and facilitate the learning of dynamic NeRF.
Extensive qualitative and quantitative experiments demonstrate that our method
achieves superior performance compared to previous methods.Summary
AI-Generated Summary