Vivid-ZOO: Mehransichtenvideoerzeugung mit Diffusionsmodell
Vivid-ZOO: Multi-View Video Generation with Diffusion Model
June 12, 2024
Autoren: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI
Zusammenfassung
Obwohl Diffusionsmodelle eine beeindruckende Leistung bei der Erzeugung von 2D-Bildern/Videos gezeigt haben, ist die auf Diffusion basierende Generierung von Text-zu-Multi-View-Video (T2MVid) noch wenig erforscht. Die neuen Herausforderungen, die sich bei der T2MVid-Generierung ergeben, liegen im Mangel an umfangreichen beschrifteten Multi-View-Videos und der Komplexität der Modellierung einer solchen mehrdimensionalen Verteilung. Zu diesem Zweck schlagen wir eine neuartige auf Diffusion basierende Pipeline vor, die hochwertige Multi-View-Videos von einem dynamischen 3D-Objekt aus generiert. Speziell zerlegen wir das T2MVid-Problem in Ansichtsraum- und Zeitkomponenten. Eine solche Zerlegung ermöglicht es uns, Schichten fortschrittlicher vorab trainierter Multi-View-Bild- und 2D-Video-Diffusionsmodelle zu kombinieren und wiederzuverwenden, um Multi-View-Konsistenz sowie zeitliche Kohärenz für die generierten Multi-View-Videos sicherzustellen und die Trainingskosten erheblich zu reduzieren. Wir führen zudem Ausrichtungsmodule ein, um die latenten Räume der Schichten der vorab trainierten Multi-View- und 2D-Video-Diffusionsmodelle anzugleichen und die Inkompatibilität der wiederverwendeten Schichten zu adressieren, die aus der Domänenlücke zwischen 2D- und Multi-View-Daten resultiert. Zur Unterstützung dieser und zukünftiger Forschung tragen wir weiterhin einen beschrifteten Multi-View-Video-Datensatz bei. Experimentelle Ergebnisse zeigen, dass unsere Methode hochwertige Multi-View-Videos generiert, die lebendige Bewegungen, zeitliche Kohärenz und Multi-View-Konsistenz aufweisen, basierend auf einer Vielzahl von Textvorgaben.
English
While diffusion models have shown impressive performance in 2D image/video
generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation
remains underexplored. The new challenges posed by T2MVid generation lie in the
lack of massive captioned multi-view videos and the complexity of modeling such
multi-dimensional distribution. To this end, we propose a novel diffusion-based
pipeline that generates high-quality multi-view videos centered around a
dynamic 3D object from text. Specifically, we factor the T2MVid problem into
viewpoint-space and time components. Such factorization allows us to combine
and reuse layers of advanced pre-trained multi-view image and 2D video
diffusion models to ensure multi-view consistency as well as temporal coherence
for the generated multi-view videos, largely reducing the training cost. We
further introduce alignment modules to align the latent spaces of layers from
the pre-trained multi-view and the 2D video diffusion models, addressing the
reused layers' incompatibility that arises from the domain gap between 2D and
multi-view data. In support of this and future research, we further contribute
a captioned multi-view video dataset. Experimental results demonstrate that our
method generates high-quality multi-view videos, exhibiting vivid motions,
temporal coherence, and multi-view consistency, given a variety of text
prompts.Summary
AI-Generated Summary