ChatPaper.aiChatPaper

Diffusion: Mehransichts-Videodiffusionsmodell für die Generierung von 4D-Daten.

4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31, 2024
Autoren: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

Zusammenfassung

Aktuelle 4D-Generierungsmethoden haben dank fortschrittlicher Diffusions-generativer Modelle eine bemerkenswerte Wirksamkeit erzielt. Diese Methoden weisen jedoch Mängel bei der Mehransichtsraum-Zeit-Modellierung auf und stoßen auf Herausforderungen bei der Integration unterschiedlicher Vorwissensquellen aus mehreren Diffusionsmodellen, was zu inkonsistenter zeitlicher Erscheinung und Flackern führt. In diesem Papier schlagen wir eine neuartige 4D-Generierungspipeline namens 4Diffusion vor, die darauf abzielt, räumlich-zeitlich konsistente 4D-Inhalte aus einem monokularen Video zu generieren. Zunächst entwerfen wir ein vereinheitlichtes Diffusionsmodell, das speziell für die Generierung von Mehransichtsvideos entwickelt wurde, indem wir ein lernbares Bewegungsmodul in ein eingefrorenes, 3D-bewusstes Diffusionsmodell integrieren, um Mehransichtsraum-Zeit-Korrelationen zu erfassen. Nach dem Training an einem kuratierten Datensatz erwirbt unser Diffusionsmodell eine vernünftige zeitliche Konsistenz und bewahrt inhärent die Generalisierbarkeit und räumliche Konsistenz des 3D-bewussten Diffusionsmodells. Anschließend schlagen wir den 4D-bewussten Score-Destillationsabtastungsverlust vor, der auf unserem Mehransichtsvideo-Diffusionsmodell basiert, um die 4D-Repräsentation zu optimieren, die durch dynamisches NeRF parametrisiert ist. Dies zielt darauf ab, Diskrepanzen zu beseitigen, die aus mehreren Diffusionsmodellen entstehen, und ermöglicht die Generierung räumlich-zeitlich konsistenter 4D-Inhalte. Darüber hinaus entwickeln wir einen Anker-Verlust, um die Erscheinungsdetails zu verbessern und das Lernen von dynamischem NeRF zu erleichtern. Umfangreiche qualitative und quantitative Experimente zeigen, dass unsere Methode im Vergleich zu früheren Methoden eine überlegene Leistung erzielt.
English
Current 4D generation methods have achieved noteworthy efficacy with the aid of advanced diffusion generative models. However, these methods lack multi-view spatial-temporal modeling and encounter challenges in integrating diverse prior knowledge from multiple diffusion models, resulting in inconsistent temporal appearance and flickers. In this paper, we propose a novel 4D generation pipeline, namely 4Diffusion aimed at generating spatial-temporally consistent 4D content from a monocular video. We first design a unified diffusion model tailored for multi-view video generation by incorporating a learnable motion module into a frozen 3D-aware diffusion model to capture multi-view spatial-temporal correlations. After training on a curated dataset, our diffusion model acquires reasonable temporal consistency and inherently preserves the generalizability and spatial consistency of the 3D-aware diffusion model. Subsequently, we propose 4D-aware Score Distillation Sampling loss, which is based on our multi-view video diffusion model, to optimize 4D representation parameterized by dynamic NeRF. This aims to eliminate discrepancies arising from multiple diffusion models, allowing for generating spatial-temporally consistent 4D content. Moreover, we devise an anchor loss to enhance the appearance details and facilitate the learning of dynamic NeRF. Extensive qualitative and quantitative experiments demonstrate that our method achieves superior performance compared to previous methods.

Summary

AI-Generated Summary

PDF151December 12, 2024