ControlVideo: Adicionando Controle Condicional para Edição de Texto para Vídeo em Uma Única Tomada
ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing
May 26, 2023
Autores: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
cs.AI
Resumo
Neste artigo, apresentamos o ControlVideo, um método inovador para edição de vídeo orientada por texto. Aproveitando as capacidades dos modelos de difusão texto-para-imagem e do ControlNet, o ControlVideo visa aprimorar a fidelidade e a consistência temporal de vídeos que se alinham a um texto fornecido, preservando a estrutura do vídeo original. Isso é alcançado por meio da incorporação de condições adicionais, como mapas de borda, e do ajuste fino da atenção em quadros-chave e temporal no par vídeo-texto de origem, com estratégias cuidadosamente projetadas. Uma exploração detalhada do design do ControlVideo é realizada para orientar pesquisas futuras sobre o ajuste único de modelos de difusão de vídeo. Quantitativamente, o ControlVideo supera uma série de linhas de base competitivas em termos de fidelidade e consistência, mantendo-se alinhado ao prompt textual. Além disso, ele produz vídeos com alto realismo visual e fidelidade em relação ao conteúdo original, demonstrando flexibilidade na utilização de controles que contêm diferentes níveis de informação do vídeo de origem e o potencial para múltiplas combinações de controles. A página do projeto está disponível em https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
English
In this paper, we present ControlVideo, a novel method for text-driven video
editing. Leveraging the capabilities of text-to-image diffusion models and
ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency
of videos that align with a given text while preserving the structure of the
source video. This is achieved by incorporating additional conditions such as
edge maps, fine-tuning the key-frame and temporal attention on the source
video-text pair with carefully designed strategies. An in-depth exploration of
ControlVideo's design is conducted to inform future research on one-shot tuning
video diffusion models. Quantitatively, ControlVideo outperforms a range of
competitive baselines in terms of faithfulness and consistency while still
aligning with the textual prompt. Additionally, it delivers videos with high
visual realism and fidelity w.r.t. the source content, demonstrating
flexibility in utilizing controls containing varying degrees of source video
information, and the potential for multiple control combinations. The project
page is available at
https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.