ControlVideo: Adicionando Controle Condicional para Edição de Texto para Vídeo em Uma Única Tomada

Resumo

Neste artigo, apresentamos o ControlVideo, um método inovador para edição de vídeo orientada por texto. Aproveitando as capacidades dos modelos de difusão texto-para-imagem e do ControlNet, o ControlVideo visa aprimorar a fidelidade e a consistência temporal de vídeos que se alinham a um texto fornecido, preservando a estrutura do vídeo original. Isso é alcançado por meio da incorporação de condições adicionais, como mapas de borda, e do ajuste fino da atenção em quadros-chave e temporal no par vídeo-texto de origem, com estratégias cuidadosamente projetadas. Uma exploração detalhada do design do ControlVideo é realizada para orientar pesquisas futuras sobre o ajuste único de modelos de difusão de vídeo. Quantitativamente, o ControlVideo supera uma série de linhas de base competitivas em termos de fidelidade e consistência, mantendo-se alinhado ao prompt textual. Além disso, ele produz vídeos com alto realismo visual e fidelidade em relação ao conteúdo original, demonstrando flexibilidade na utilização de controles que contêm diferentes níveis de informação do vídeo de origem e o potencial para múltiplas combinações de controles. A página do projeto está disponível em https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.

English

In this paper, we present ControlVideo, a novel method for text-driven video editing. Leveraging the capabilities of text-to-image diffusion models and ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency of videos that align with a given text while preserving the structure of the source video. This is achieved by incorporating additional conditions such as edge maps, fine-tuning the key-frame and temporal attention on the source video-text pair with carefully designed strategies. An in-depth exploration of ControlVideo's design is conducted to inform future research on one-shot tuning video diffusion models. Quantitatively, ControlVideo outperforms a range of competitive baselines in terms of faithfulness and consistency while still aligning with the textual prompt. Additionally, it delivers videos with high visual realism and fidelity w.r.t. the source content, demonstrating flexibility in utilizing controls containing varying degrees of source video information, and the potential for multiple control combinations. The project page is available at https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.

ControlVideo: Adicionando Controle Condicional para Edição de Texto para Vídeo em Uma Única Tomada

ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing

Resumo

Support