ChatPaper.aiChatPaper

4Diffusion: Modelo de Difusión de Vídeo Multivista para Generación 4D

4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31, 2024
Autores: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

Resumen

Los métodos actuales de generación 4D han logrado una eficacia notable con la ayuda de modelos generativos avanzados basados en difusión. Sin embargo, estos métodos carecen de modelado espacio-temporal multivista y enfrentan desafíos al integrar diversos conocimientos previos de múltiples modelos de difusión, lo que resulta en una apariencia temporal inconsistente y parpadeos. En este artículo, proponemos una novedosa pipeline de generación 4D, denominada 4Diffusion, destinada a generar contenido 4D espacio-temporalmente consistente a partir de un video monocular. Primero, diseñamos un modelo de difusión unificado adaptado para la generación de video multivista, incorporando un módulo de movimiento aprendible en un modelo de difusión 3D congelado para capturar correlaciones espacio-temporales multivista. Después del entrenamiento en un conjunto de datos seleccionado, nuestro modelo de difusión adquiere una consistencia temporal razonable y preserva inherentemente la generalización y la consistencia espacial del modelo de difusión 3D. Posteriormente, proponemos una pérdida de Distorsión de Puntuación 4D, basada en nuestro modelo de difusión de video multivista, para optimizar la representación 4D parametrizada por NeRF dinámico. Esto tiene como objetivo eliminar las discrepancias que surgen de múltiples modelos de difusión, permitiendo la generación de contenido 4D espacio-temporalmente consistente. Además, ideamos una pérdida de anclaje para mejorar los detalles de apariencia y facilitar el aprendizaje de NeRF dinámico. Experimentos cualitativos y cuantitativos extensos demuestran que nuestro método logra un rendimiento superior en comparación con métodos anteriores.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view spatial-temporal modeling and encounter challenges in integrating diverse prior knowledge from multiple diffusion models, resulting in inconsistent temporal appearance and flickers. In this paper, we propose a novel 4D generation pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent 4D content from a monocular video. We first design a unified diffusion model tailored for multi-view video generation by incorporating a learnable motion module into a frozen 3D-aware diffusion model to capture multi-view spatial-temporal correlations. After training on a curated dataset, our diffusion model acquires reasonable temporal consistency and inherently preserves the generalizability and spatial consistency of the 3D-aware diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling loss, which is based on our multi-view video diffusion model, to optimize 4D representation parameterized by dynamic NeRF. This aims to eliminate discrepancies arising from multiple diffusion models, allowing for generating spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to enhance the appearance details and facilitate the learning of dynamic NeRF. Extensive qualitative and quantitative experiments demonstrate that our method achieves superior performance compared to previous methods.

Summary

AI-Generated Summary

PDF151December 12, 2024