DreamVideo: Componha Seus Vídeos dos Sonhos com Assunto e Movimento Personalizados
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
December 7, 2023
Autores: Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, Hongming Shan
cs.AI
Resumo
A geração personalizada utilizando modelos de difusão tem alcançado progressos impressionantes na geração de imagens, mas ainda se mostra insatisfatória na desafiante tarefa de geração de vídeos, uma vez que exige o controle tanto dos sujeitos quanto dos movimentos. Para isso, apresentamos o DreamVideo, uma abordagem inovadora para gerar vídeos personalizados a partir de algumas imagens estáticas do sujeito desejado e alguns vídeos do movimento alvo. O DreamVideo desacopla essa tarefa em dois estágios, aprendizado do sujeito e aprendizado do movimento, aproveitando um modelo de difusão de vídeo pré-treinado. O aprendizado do sujeito visa capturar com precisão a aparência detalhada do sujeito a partir das imagens fornecidas, o que é alcançado combinando inversão textual e ajuste fino de nosso adaptador de identidade cuidadosamente projetado. No aprendizado do movimento, arquitetamos um adaptador de movimento e o ajustamos nos vídeos fornecidos para modelar efetivamente o padrão de movimento alvo. A combinação desses dois adaptadores leves e eficientes permite a personalização flexível de qualquer sujeito com qualquer movimento. Resultados experimentais extensivos demonstram o desempenho superior do nosso DreamVideo em relação aos métodos mais avançados para geração de vídeos personalizados. Nossa página do projeto está disponível em https://dreamvideo-t2v.github.io.
English
Customized generation using diffusion models has made impressive progress in
image generation, but remains unsatisfactory in the challenging video
generation task, as it requires the controllability of both subjects and
motions. To that end, we present DreamVideo, a novel approach to generating
personalized videos from a few static images of the desired subject and a few
videos of target motion. DreamVideo decouples this task into two stages,
subject learning and motion learning, by leveraging a pre-trained video
diffusion model. The subject learning aims to accurately capture the fine
appearance of the subject from provided images, which is achieved by combining
textual inversion and fine-tuning of our carefully designed identity adapter.
In motion learning, we architect a motion adapter and fine-tune it on the given
videos to effectively model the target motion pattern. Combining these two
lightweight and efficient adapters allows for flexible customization of any
subject with any motion. Extensive experimental results demonstrate the
superior performance of our DreamVideo over the state-of-the-art methods for
customized video generation. Our project page is at
https://dreamvideo-t2v.github.io.