ChatPaper.aiChatPaper

4Diffusion: Modello di Diffusione per Video Multi-vista per la Generazione 4D

4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31, 2024
Autori: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

Abstract

I metodi attuali di generazione 4D hanno raggiunto un'efficacia notevole grazie all'ausilio di avanzati modelli generativi basati su diffusione. Tuttavia, questi metodi mancano di una modellizzazione spazio-temporale multi-vista e incontrano difficoltà nell'integrare diverse conoscenze pregresse provenienti da più modelli di diffusione, risultando in un'apparenza temporale incoerente e in sfarfallii. In questo articolo, proponiamo una nuova pipeline di generazione 4D, denominata 4Diffusion, mirata a generare contenuti 4D spazialmente e temporalmente coerenti a partire da un video monoculare. Inizialmente, progettiamo un modello di diffusione unificato adattato per la generazione di video multi-vista, incorporando un modulo di movimento apprendibile in un modello di diffusione 3D-aware congelato, per catturare le correlazioni spazio-temporali multi-vista. Dopo l'addestramento su un dataset curato, il nostro modello di diffusione acquisisce una coerenza temporale ragionevole e preserva intrinsecamente la generalizzabilità e la coerenza spaziale del modello di diffusione 3D-aware. Successivamente, proponiamo una funzione di perdita basata su Score Distillation Sampling 4D-aware, che si basa sul nostro modello di diffusione video multi-vista, per ottimizzare la rappresentazione 4D parametrizzata da un NeRF dinamico. Questo mira a eliminare le discrepanze derivanti da più modelli di diffusione, consentendo la generazione di contenuti 4D spazialmente e temporalmente coerenti. Inoltre, ideiamo una perdita di ancoraggio per migliorare i dettagli dell'aspetto e facilitare l'apprendimento del NeRF dinamico. Estesi esperimenti qualitativi e quantitativi dimostrano che il nostro metodo raggiunge prestazioni superiori rispetto ai metodi precedenti.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view spatial-temporal modeling and encounter challenges in integrating diverse prior knowledge from multiple diffusion models, resulting in inconsistent temporal appearance and flickers. In this paper, we propose a novel 4D generation pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent 4D content from a monocular video. We first design a unified diffusion model tailored for multi-view video generation by incorporating a learnable motion module into a frozen 3D-aware diffusion model to capture multi-view spatial-temporal correlations. After training on a curated dataset, our diffusion model acquires reasonable temporal consistency and inherently preserves the generalizability and spatial consistency of the 3D-aware diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling loss, which is based on our multi-view video diffusion model, to optimize 4D representation parameterized by dynamic NeRF. This aims to eliminate discrepancies arising from multiple diffusion models, allowing for generating spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to enhance the appearance details and facilitate the learning of dynamic NeRF. Extensive qualitative and quantitative experiments demonstrate that our method achieves superior performance compared to previous methods.
PDF151February 7, 2026