ChatPaper.aiChatPaper

ControlVideo: Hinzufügen von bedingter Steuerung für One-Shot-Text-zu-Video-Bearbeitung

ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing

May 26, 2023
Autoren: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
cs.AI

Zusammenfassung

In diesem Artikel stellen wir ControlVideo vor, eine neuartige Methode für die textgesteuerte Videobearbeitung. Durch die Nutzung der Fähigkeiten von Text-zu-Bild-Diffusionsmodellen und ControlNet zielt ControlVideo darauf ab, die Detailtreue und zeitliche Konsistenz von Videos zu verbessern, die mit einem gegebenen Text übereinstimmen, während die Struktur des Quellvideos erhalten bleibt. Dies wird durch die Einbindung zusätzlicher Bedingungen wie Kantenkarten sowie durch das Feinabstimmen der Schlüsselbild- und zeitlichen Aufmerksamkeit auf das Quellvideo-Text-Paar mit sorgfältig gestalteten Strategien erreicht. Eine detaillierte Untersuchung des Designs von ControlVideo wird durchgeführt, um zukünftige Forschungen zur Einmalabstimmung von Videodiffusionsmodellen zu informieren. Quantitativ übertrifft ControlVideo eine Reihe von wettbewerbsfähigen Baselines in Bezug auf Treue und Konsistenz, während es dennoch mit dem Textprompt übereinstimmt. Zudem liefert es Videos mit hoher visueller Realität und Detailtreue in Bezug auf den Quellinhalt, was die Flexibilität bei der Nutzung von Steuerungen mit unterschiedlichem Grad an Quellvideoinformationen sowie das Potenzial für multiple Steuerungskombinationen demonstriert. Die Projektseite ist verfügbar unter https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
English
In this paper, we present ControlVideo, a novel method for text-driven video editing. Leveraging the capabilities of text-to-image diffusion models and ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency of videos that align with a given text while preserving the structure of the source video. This is achieved by incorporating additional conditions such as edge maps, fine-tuning the key-frame and temporal attention on the source video-text pair with carefully designed strategies. An in-depth exploration of ControlVideo's design is conducted to inform future research on one-shot tuning video diffusion models. Quantitatively, ControlVideo outperforms a range of competitive baselines in terms of faithfulness and consistency while still aligning with the textual prompt. Additionally, it delivers videos with high visual realism and fidelity w.r.t. the source content, demonstrating flexibility in utilizing controls containing varying degrees of source video information, and the potential for multiple control combinations. The project page is available at https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
PDF33December 15, 2024