ControlVideo: Het toevoegen van conditionele controle voor one-shot tekst-naar-video bewerking
ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing
May 26, 2023
Auteurs: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
cs.AI
Samenvatting
In dit artikel presenteren we ControlVideo, een nieuwe methode voor tekstgestuurde videobewerking. Door gebruik te maken van de mogelijkheden van tekst-naar-beeld diffusiemodellen en ControlNet, streeft ControlVideo ernaar de nauwkeurigheid en temporele consistentie van video's die overeenkomen met een gegeven tekst te verbeteren, terwijl de structuur van de bronvideo behouden blijft. Dit wordt bereikt door aanvullende voorwaarden, zoals randkaarten, te integreren en de sleutelframe- en temporele aandacht op het bronvideo-tekstpaar af te stemmen met zorgvuldig ontworpen strategieën. Een diepgaande verkenning van het ontwerp van ControlVideo wordt uitgevoerd om toekomstig onderzoek naar one-shot tuning van videodiffusiemodellen te informeren. Kwantitatief gezien presteert ControlVideo beter dan een reeks competitieve basislijnen wat betreft trouw en consistentie, terwijl het nog steeds overeenkomt met de tekstuele prompt. Daarnaast levert het video's op met een hoge visuele realiteit en nauwkeurigheid ten opzichte van de broninhoud, wat de flexibiliteit aantoont in het gebruik van controles die verschillende niveaus van bronvideo-informatie bevatten, en het potentieel voor meerdere controlecombinaties. De projectpagina is beschikbaar op https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
English
In this paper, we present ControlVideo, a novel method for text-driven video
editing. Leveraging the capabilities of text-to-image diffusion models and
ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency
of videos that align with a given text while preserving the structure of the
source video. This is achieved by incorporating additional conditions such as
edge maps, fine-tuning the key-frame and temporal attention on the source
video-text pair with carefully designed strategies. An in-depth exploration of
ControlVideo's design is conducted to inform future research on one-shot tuning
video diffusion models. Quantitatively, ControlVideo outperforms a range of
competitive baselines in terms of faithfulness and consistency while still
aligning with the textual prompt. Additionally, it delivers videos with high
visual realism and fidelity w.r.t. the source content, demonstrating
flexibility in utilizing controls containing varying degrees of source video
information, and the potential for multiple control combinations. The project
page is available at
https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.