UniVG: Rumo à Geração de Vídeo UNImodal

Resumo

A geração de vídeos baseada em difusão tem recebido ampla atenção e alcançado considerável sucesso tanto na comunidade acadêmica quanto na indústria. No entanto, os esforços atuais estão principalmente concentrados na geração de vídeos com objetivo único ou tarefa única, como geração impulsionada por texto, por imagem ou por uma combinação de texto e imagem. Isso não atende plenamente às necessidades dos cenários de aplicação do mundo real, pois os usuários provavelmente inserirão condições de imagem e texto de maneira flexível, individualmente ou em combinação. Para resolver isso, propomos um sistema de Geração de Vídeo Unimodal que é capaz de lidar com múltiplas tarefas de geração de vídeo em modalidades de texto e imagem. Para isso, revisitamos as diversas tarefas de geração de vídeo dentro do nosso sistema sob a perspectiva da liberdade generativa e as classificamos em categorias de geração de vídeo de alta liberdade e baixa liberdade. Para a geração de vídeo de alta liberdade, empregamos a Atenção Cruzada Multicondicional para gerar vídeos que se alinham com a semântica das imagens ou textos de entrada. Para a geração de vídeo de baixa liberdade, introduzimos o Ruído Gaussiano Tendencioso para substituir o Ruído Gaussiano puramente aleatório, o que ajuda a preservar melhor o conteúdo das condições de entrada. Nosso método alcança a menor Distância de Vídeo Fréchet (FVD) no benchmark acadêmico público MSR-VTT, supera os métodos atuais de código aberto em avaliações humanas e está em pé de igualdade com o método atual de código fechado Gen2. Para mais exemplos, visite https://univg-baidu.github.io.

English

Diffusion based video generation has received extensive attention and achieved considerable success within both the academic and industrial communities. However, current efforts are mainly concentrated on single-objective or single-task video generation, such as generation driven by text, by image, or by a combination of text and image. This cannot fully meet the needs of real-world application scenarios, as users are likely to input images and text conditions in a flexible manner, either individually or in combination. To address this, we propose a Unified-modal Video Genearation system that is capable of handling multiple video generation tasks across text and image modalities. To this end, we revisit the various video generation tasks within our system from the perspective of generative freedom, and classify them into high-freedom and low-freedom video generation categories. For high-freedom video generation, we employ Multi-condition Cross Attention to generate videos that align with the semantics of the input images or text. For low-freedom video generation, we introduce Biased Gaussian Noise to replace the pure random Gaussian Noise, which helps to better preserve the content of the input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD) on the public academic benchmark MSR-VTT, surpasses the current open-source methods in human evaluations, and is on par with the current close-source method Gen2. For more samples, visit https://univg-baidu.github.io.

UniVG: Rumo à Geração de Vídeo UNImodal

UniVG: Towards UNIfied-modal Video Generation

Resumo

Support