ControlVideo: Het toevoegen van conditionele controle voor one-shot tekst-naar-video bewerking

Samenvatting

In dit artikel presenteren we ControlVideo, een nieuwe methode voor tekstgestuurde videobewerking. Door gebruik te maken van de mogelijkheden van tekst-naar-beeld diffusiemodellen en ControlNet, streeft ControlVideo ernaar de nauwkeurigheid en temporele consistentie van video's die overeenkomen met een gegeven tekst te verbeteren, terwijl de structuur van de bronvideo behouden blijft. Dit wordt bereikt door aanvullende voorwaarden, zoals randkaarten, te integreren en de sleutelframe- en temporele aandacht op het bronvideo-tekstpaar af te stemmen met zorgvuldig ontworpen strategieën. Een diepgaande verkenning van het ontwerp van ControlVideo wordt uitgevoerd om toekomstig onderzoek naar one-shot tuning van videodiffusiemodellen te informeren. Kwantitatief gezien presteert ControlVideo beter dan een reeks competitieve basislijnen wat betreft trouw en consistentie, terwijl het nog steeds overeenkomt met de tekstuele prompt. Daarnaast levert het video's op met een hoge visuele realiteit en nauwkeurigheid ten opzichte van de broninhoud, wat de flexibiliteit aantoont in het gebruik van controles die verschillende niveaus van bronvideo-informatie bevatten, en het potentieel voor meerdere controlecombinaties. De projectpagina is beschikbaar op https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.

English

In this paper, we present ControlVideo, a novel method for text-driven video editing. Leveraging the capabilities of text-to-image diffusion models and ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency of videos that align with a given text while preserving the structure of the source video. This is achieved by incorporating additional conditions such as edge maps, fine-tuning the key-frame and temporal attention on the source video-text pair with carefully designed strategies. An in-depth exploration of ControlVideo's design is conducted to inform future research on one-shot tuning video diffusion models. Quantitatively, ControlVideo outperforms a range of competitive baselines in terms of faithfulness and consistency while still aligning with the textual prompt. Additionally, it delivers videos with high visual realism and fidelity w.r.t. the source content, demonstrating flexibility in utilizing controls containing varying degrees of source video information, and the potential for multiple control combinations. The project page is available at https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.

ControlVideo: Het toevoegen van conditionele controle voor one-shot tekst-naar-video bewerking

ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing

Samenvatting

Support