UniVG: Naar UNIfied-modale Videogeneratie

Samenvatting

Diffusiegebaseerde videogeneratie heeft uitgebreide aandacht gekregen en aanzienlijk succes behaald binnen zowel de academische als de industriële gemeenschappen. Huidige inspanningen zijn echter voornamelijk gericht op videogeneratie met één doel of één taak, zoals generatie aangedreven door tekst, door afbeeldingen, of door een combinatie van tekst en afbeeldingen. Dit kan niet volledig voldoen aan de behoeften van real-world toepassingsscenario's, aangezien gebruikers waarschijnlijk afbeeldingen en tekstcondities op een flexibele manier invoeren, afzonderlijk of in combinatie. Om dit aan te pakken, stellen we een Unified-modal Video Generation-systeem voor dat in staat is om meerdere videogeneratietaken over tekst- en afbeeldingsmodaliteiten te verwerken. Hiertoe herzien we de verschillende videogeneratietaken binnen ons systeem vanuit het perspectief van generatieve vrijheid en classificeren we ze in categorieën van videogeneratie met hoge vrijheid en lage vrijheid. Voor videogeneratie met hoge vrijheid gebruiken we Multi-condition Cross Attention om video's te genereren die aansluiten bij de semantiek van de invoerafbeeldingen of tekst. Voor videogeneratie met lage vrijheid introduceren we Biased Gaussian Noise om het zuivere willekeurige Gaussiaanse ruis te vervangen, wat helpt om de inhoud van de invoercondities beter te behouden. Onze methode behaalt de laagste Fréchet Video Distance (FVD) op de openbare academische benchmark MSR-VTT, overtreft de huidige open-source methoden in menselijke evaluaties, en is vergelijkbaar met de huidige closed-source methode Gen2. Voor meer voorbeelden, bezoek https://univg-baidu.github.io.

English

Diffusion based video generation has received extensive attention and achieved considerable success within both the academic and industrial communities. However, current efforts are mainly concentrated on single-objective or single-task video generation, such as generation driven by text, by image, or by a combination of text and image. This cannot fully meet the needs of real-world application scenarios, as users are likely to input images and text conditions in a flexible manner, either individually or in combination. To address this, we propose a Unified-modal Video Genearation system that is capable of handling multiple video generation tasks across text and image modalities. To this end, we revisit the various video generation tasks within our system from the perspective of generative freedom, and classify them into high-freedom and low-freedom video generation categories. For high-freedom video generation, we employ Multi-condition Cross Attention to generate videos that align with the semantics of the input images or text. For low-freedom video generation, we introduce Biased Gaussian Noise to replace the pure random Gaussian Noise, which helps to better preserve the content of the input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD) on the public academic benchmark MSR-VTT, surpasses the current open-source methods in human evaluations, and is on par with the current close-source method Gen2. For more samples, visit https://univg-baidu.github.io.

UniVG: Naar UNIfied-modale Videogeneratie

UniVG: Towards UNIfied-modal Video Generation

Samenvatting

Support