ControlVideo: Incorporación de Control Condicional para la Edición de Texto a Video en una Toma Única
ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing
May 26, 2023
Autores: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
cs.AI
Resumen
En este artículo, presentamos ControlVideo, un método novedoso para la edición de videos basada en texto. Aprovechando las capacidades de los modelos de difusión de texto a imagen y ControlNet, ControlVideo tiene como objetivo mejorar la fidelidad y la consistencia temporal de los videos que se alinean con un texto dado, preservando al mismo tiempo la estructura del video original. Esto se logra mediante la incorporación de condiciones adicionales, como mapas de bordes, y el ajuste fino de la atención en fotogramas clave y temporal en el par video-texto de origen con estrategias cuidadosamente diseñadas. Se realiza una exploración en profundidad del diseño de ControlVideo para informar futuras investigaciones sobre la sintonización de modelos de difusión de video en una sola toma. Cuantitativamente, ControlVideo supera a una variedad de líneas base competitivas en términos de fidelidad y consistencia, manteniendo la alineación con la indicación textual. Además, produce videos con un alto realismo visual y fidelidad respecto al contenido original, demostrando flexibilidad en el uso de controles que contienen distintos grados de información del video fuente, así como el potencial para múltiples combinaciones de controles. La página del proyecto está disponible en https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
English
In this paper, we present ControlVideo, a novel method for text-driven video
editing. Leveraging the capabilities of text-to-image diffusion models and
ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency
of videos that align with a given text while preserving the structure of the
source video. This is achieved by incorporating additional conditions such as
edge maps, fine-tuning the key-frame and temporal attention on the source
video-text pair with carefully designed strategies. An in-depth exploration of
ControlVideo's design is conducted to inform future research on one-shot tuning
video diffusion models. Quantitatively, ControlVideo outperforms a range of
competitive baselines in terms of faithfulness and consistency while still
aligning with the textual prompt. Additionally, it delivers videos with high
visual realism and fidelity w.r.t. the source content, demonstrating
flexibility in utilizing controls containing varying degrees of source video
information, and the potential for multiple control combinations. The project
page is available at
https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.