UniVG: К созданию унифицированной генерации видео
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
Авторы: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
Аннотация
Генерация видео на основе диффузионных моделей получила широкое внимание и достигла значительных успехов как в академических, так и в промышленных кругах. Однако текущие усилия в основном сосредоточены на одноцелевой или однотипной генерации видео, такой как генерация, управляемая текстом, изображением или их комбинацией. Это не может полностью удовлетворить потребности реальных сценариев применения, поскольку пользователи могут гибко вводить условия в виде изображений, текста или их сочетания. Для решения этой проблемы мы предлагаем унифицированную систему генерации видео, способную обрабатывать множество задач генерации видео, охватывающих текстовые и визуальные модальности. С этой целью мы рассматриваем различные задачи генерации видео в нашей системе с точки зрения свободы генерации и классифицируем их на категории с высокой и низкой свободой. Для генерации видео с высокой свободой мы используем механизм Multi-condition Cross Attention для создания видео, соответствующих семантике входных изображений или текста. Для генерации видео с низкой свободой мы вводим смещенный гауссовский шум вместо чистого случайного гауссовского шума, что помогает лучше сохранять содержание входных условий. Наш метод достигает наименьшего значения Fréchet Video Distance (FVD) на общедоступном академическом бенчмарке MSR-VTT, превосходит текущие открытые методы в оценках пользователей и находится на одном уровне с закрытым методом Gen2. Для получения дополнительных примеров посетите https://univg-baidu.github.io.
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.