ControlVideo : Ajout d'un contrôle conditionnel pour l'édition vidéo text-to-video en une seule prise
ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing
May 26, 2023
Auteurs: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
cs.AI
Résumé
Dans cet article, nous présentons ControlVideo, une méthode novatrice pour l'édition de vidéos pilotée par texte. En exploitant les capacités des modèles de diffusion texte-à-image et de ControlNet, ControlVideo vise à améliorer la fidélité et la cohérence temporelle des vidéos qui s'alignent sur un texte donné, tout en préservant la structure de la vidéo source. Cela est réalisé en incorporant des conditions supplémentaires telles que des cartes de contours, en affinant l'attention sur les images clés et temporelle pour la paire vidéo-source/texte grâce à des stratégies soigneusement conçues. Une exploration approfondie de la conception de ControlVideo est menée pour éclairer les recherches futures sur l'ajustement en une seule étape des modèles de diffusion vidéo. Quantitativement, ControlVideo surpasse une gamme de bases de référence compétitives en termes de fidélité et de cohérence tout en restant aligné avec l'invite textuelle. De plus, il produit des vidéos avec un réalisme visuel élevé et une grande fidélité par rapport au contenu source, démontrant une flexibilité dans l'utilisation de contrôles contenant divers degrés d'informations de la vidéo source, ainsi que le potentiel pour des combinaisons multiples de contrôles. La page du projet est disponible à l'adresse suivante : https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
English
In this paper, we present ControlVideo, a novel method for text-driven video
editing. Leveraging the capabilities of text-to-image diffusion models and
ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency
of videos that align with a given text while preserving the structure of the
source video. This is achieved by incorporating additional conditions such as
edge maps, fine-tuning the key-frame and temporal attention on the source
video-text pair with carefully designed strategies. An in-depth exploration of
ControlVideo's design is conducted to inform future research on one-shot tuning
video diffusion models. Quantitatively, ControlVideo outperforms a range of
competitive baselines in terms of faithfulness and consistency while still
aligning with the textual prompt. Additionally, it delivers videos with high
visual realism and fidelity w.r.t. the source content, demonstrating
flexibility in utilizing controls containing varying degrees of source video
information, and the potential for multiple control combinations. The project
page is available at
https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.