ControlVideo: Aggiunta di Controllo Condizionale per l'Editing One Shot da Testo a Video
ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing
May 26, 2023
Autori: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
cs.AI
Abstract
In questo articolo presentiamo ControlVideo, un metodo innovativo per l'editing video guidato da testo. Sfruttando le capacità dei modelli di diffusione testo-immagine e di ControlNet, ControlVideo mira a migliorare la fedeltà e la coerenza temporale dei video che si allineano a un determinato testo, preservando al contempo la struttura del video sorgente. Questo risultato è ottenuto incorporando condizioni aggiuntive come mappe di contorno, ottimizzando l'attenzione sui fotogrammi chiave e temporale sulla coppia video-testo sorgente con strategie accuratamente progettate. Viene condotta un'analisi approfondita del design di ControlVideo per informare la ricerca futura sull'ottimizzazione one-shot dei modelli di diffusione video. Quantitativamente, ControlVideo supera una gamma di baseline competitive in termini di fedeltà e coerenza, mantenendo l'allineamento con il prompt testuale. Inoltre, produce video con un elevato realismo visivo e fedeltà rispetto al contenuto sorgente, dimostrando flessibilità nell'utilizzo di controlli che contengono diversi livelli di informazione del video sorgente e il potenziale per combinazioni multiple di controlli. La pagina del progetto è disponibile all'indirizzo https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
English
In this paper, we present ControlVideo, a novel method for text-driven video
editing. Leveraging the capabilities of text-to-image diffusion models and
ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency
of videos that align with a given text while preserving the structure of the
source video. This is achieved by incorporating additional conditions such as
edge maps, fine-tuning the key-frame and temporal attention on the source
video-text pair with carefully designed strategies. An in-depth exploration of
ControlVideo's design is conducted to inform future research on one-shot tuning
video diffusion models. Quantitatively, ControlVideo outperforms a range of
competitive baselines in terms of faithfulness and consistency while still
aligning with the textual prompt. Additionally, it delivers videos with high
visual realism and fidelity w.r.t. the source content, demonstrating
flexibility in utilizing controls containing varying degrees of source video
information, and the potential for multiple control combinations. The project
page is available at
https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.