UniVG: Auf dem Weg zur UNIfizierten modalen Videogenerierung
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
Autoren: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
Zusammenfassung
Diffusionsbasierte Videogenerierung hat sowohl in der akademischen als auch in der industriellen Gemeinschaft große Aufmerksamkeit erregt und beträchtliche Erfolge erzielt. Allerdings konzentrieren sich die aktuellen Bemühungen hauptsächlich auf die Einzelziel- oder Einzelaufgaben-Videogenerierung, wie beispielsweise die durch Text, durch Bilder oder durch eine Kombination aus Text und Bildern gesteuerte Generierung. Dies kann den Anforderungen realer Anwendungsszenarien nicht vollständig gerecht werden, da Benutzer wahrscheinlich Bilder und Textbedingungen auf flexible Weise, entweder einzeln oder in Kombination, eingeben. Um dies zu adressieren, schlagen wir ein Unified-modal Video Generation-System vor, das in der Lage ist, mehrere Videogenerierungsaufgaben über Text- und Bildmodalitäten hinweg zu bewältigen. Zu diesem Zweck betrachten wir die verschiedenen Videogenerierungsaufgaben innerhalb unseres Systems aus der Perspektive der generativen Freiheit und klassifizieren sie in Kategorien der hochfreien und niedrigfreien Videogenerierung. Für die hochfreie Videogenerierung verwenden wir Multi-condition Cross Attention, um Videos zu erzeugen, die mit der Semantik der Eingabebilder oder -texte übereinstimmen. Für die niedrigfreie Videogenerierung führen wir Biased Gaussian Noise ein, um das rein zufällige Gaußsche Rauschen zu ersetzen, was dazu beiträgt, den Inhalt der Eingabebedingungen besser zu bewahren. Unsere Methode erreicht den niedrigsten Fréchet Video Distance (FVD) auf dem öffentlichen akademischen Benchmark MSR-VTT, übertrifft die aktuellen Open-Source-Methoden in menschlichen Bewertungen und steht auf Augenhöhe mit der aktuellen Closed-Source-Methode Gen2. Weitere Beispiele finden Sie unter https://univg-baidu.github.io.
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.