UniVG: Rumo à Geração de Vídeo UNImodal
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
Autores: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
Resumo
A geração de vídeos baseada em difusão tem recebido ampla atenção e alcançado considerável sucesso tanto na comunidade acadêmica quanto na indústria. No entanto, os esforços atuais estão principalmente concentrados na geração de vídeos com objetivo único ou tarefa única, como geração impulsionada por texto, por imagem ou por uma combinação de texto e imagem. Isso não atende plenamente às necessidades dos cenários de aplicação do mundo real, pois os usuários provavelmente inserirão condições de imagem e texto de maneira flexível, individualmente ou em combinação. Para resolver isso, propomos um sistema de Geração de Vídeo Unimodal que é capaz de lidar com múltiplas tarefas de geração de vídeo em modalidades de texto e imagem. Para isso, revisitamos as diversas tarefas de geração de vídeo dentro do nosso sistema sob a perspectiva da liberdade generativa e as classificamos em categorias de geração de vídeo de alta liberdade e baixa liberdade. Para a geração de vídeo de alta liberdade, empregamos a Atenção Cruzada Multicondicional para gerar vídeos que se alinham com a semântica das imagens ou textos de entrada. Para a geração de vídeo de baixa liberdade, introduzimos o Ruído Gaussiano Tendencioso para substituir o Ruído Gaussiano puramente aleatório, o que ajuda a preservar melhor o conteúdo das condições de entrada. Nosso método alcança a menor Distância de Vídeo Fréchet (FVD) no benchmark acadêmico público MSR-VTT, supera os métodos atuais de código aberto em avaliações humanas e está em pé de igualdade com o método atual de código fechado Gen2. Para mais exemplos, visite https://univg-baidu.github.io.
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.