ChatPaper.aiChatPaper

4Diffusion: Modelo de Difusão de Vídeo Multi-visão para Geração 4D

4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31, 2024
Autores: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

Resumo

Os métodos atuais de geração 4D alcançaram eficácia notável com o auxílio de modelos generativos avançados baseados em difusão. No entanto, esses métodos carecem de modelagem espaço-temporal multivista e enfrentam desafios na integração de diversos conhecimentos prévios de múltiplos modelos de difusão, resultando em aparência temporal inconsistente e cintilações. Neste artigo, propomos um novo pipeline de geração 4D, denominado 4Diffusion, voltado para a geração de conteúdo 4D espaço-temporalmente consistente a partir de um vídeo monocular. Primeiro, projetamos um modelo de difusão unificado adaptado para a geração de vídeo multivista, incorporando um módulo de movimento aprendível em um modelo de difusão 3D congelado para capturar correlações espaço-temporais multivista. Após o treinamento em um conjunto de dados curado, nosso modelo de difusão adquire consistência temporal razoável e preserva inerentemente a generalizabilidade e a consistência espacial do modelo de difusão 3D. Posteriormente, propomos uma função de perda de Amostragem de Destilação de Pontuação 4D, baseada em nosso modelo de difusão de vídeo multivista, para otimizar a representação 4D parametrizada por NeRF dinâmico. Isso visa eliminar discrepâncias decorrentes de múltiplos modelos de difusão, permitindo a geração de conteúdo 4D espaço-temporalmente consistente. Além disso, elaboramos uma função de perda de âncora para aprimorar os detalhes de aparência e facilitar o aprendizado do NeRF dinâmico. Experimentos qualitativos e quantitativos extensivos demonstram que nosso método alcança desempenho superior em comparação com métodos anteriores.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view spatial-temporal modeling and encounter challenges in integrating diverse prior knowledge from multiple diffusion models, resulting in inconsistent temporal appearance and flickers. In this paper, we propose a novel 4D generation pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent 4D content from a monocular video. We first design a unified diffusion model tailored for multi-view video generation by incorporating a learnable motion module into a frozen 3D-aware diffusion model to capture multi-view spatial-temporal correlations. After training on a curated dataset, our diffusion model acquires reasonable temporal consistency and inherently preserves the generalizability and spatial consistency of the 3D-aware diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling loss, which is based on our multi-view video diffusion model, to optimize 4D representation parameterized by dynamic NeRF. This aims to eliminate discrepancies arising from multiple diffusion models, allowing for generating spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to enhance the appearance details and facilitate the learning of dynamic NeRF. Extensive qualitative and quantitative experiments demonstrate that our method achieves superior performance compared to previous methods.
PDF151December 12, 2024