ChatPaper.aiChatPaper

SketchVideo: Skizzenbasierte Videogenerierung und -bearbeitung

SketchVideo: Sketch-based Video Generation and Editing

March 30, 2025
Autoren: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI

Zusammenfassung

Die Generierung und Bearbeitung von Videos, die auf Textprompts oder Bildern basieren, haben bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der präzisen Steuerung des globalen Layouts und geometrischer Details allein durch Texte sowie bei der Unterstützung von Bewegungssteuerung und lokaler Modifikation durch Bilder. In diesem Artikel streben wir eine skizzenbasierte räumliche und Bewegungssteuerung für die Videogenerierung an und unterstützen die fein abgestimmte Bearbeitung von realen oder synthetischen Videos. Basierend auf dem DiT-Videogenerierungsmodell schlagen wir eine speichereffiziente Steuerungsstruktur mit Skizzensteuerungsblöcken vor, die Restmerkmale von übersprungenen DiT-Blöcken vorhersagen. Skizzen werden auf einem oder zwei Keyframes (zu beliebigen Zeitpunkten) gezeichnet, um eine einfache Interaktion zu ermöglichen. Um diese zeitlich spärlichen Skizzenbedingungen über alle Frames hinweg zu propagieren, schlagen wir einen Inter-Frame-Attentionsmechanismus vor, der die Beziehung zwischen den Keyframes und jedem Videoframe analysiert. Für die skizzenbasierte Videobearbeitung entwerfen wir ein zusätzliches Videoeinfügemodul, das die Konsistenz zwischen dem neu bearbeiteten Inhalt und den räumlichen Merkmalen sowie der dynamischen Bewegung des Originalvideos gewährleistet. Während der Inferenz verwenden wir latente Fusion, um unveränderte Bereiche präzise zu erhalten. Umfangreiche Experimente zeigen, dass unser SketchVideo eine überlegene Leistung bei der kontrollierbaren Videogenerierung und -bearbeitung erzielt.
English
Video generation and editing conditioned on text prompts or images have undergone significant advancements. However, challenges remain in accurately controlling global layout and geometry details solely by texts, and supporting motion control and local modification through images. In this paper, we aim to achieve sketch-based spatial and motion control for video generation and support fine-grained editing of real or synthetic videos. Based on the DiT video generation model, we propose a memory-efficient control structure with sketch control blocks that predict residual features of skipped DiT blocks. Sketches are drawn on one or two keyframes (at arbitrary time points) for easy interaction. To propagate such temporally sparse sketch conditions across all frames, we propose an inter-frame attention mechanism to analyze the relationship between the keyframes and each video frame. For sketch-based video editing, we design an additional video insertion module that maintains consistency between the newly edited content and the original video's spatial feature and dynamic motion. During inference, we use latent fusion for the accurate preservation of unedited regions. Extensive experiments demonstrate that our SketchVideo achieves superior performance in controllable video generation and editing.

Summary

AI-Generated Summary

PDF233April 1, 2025