ChatPaper.aiChatPaper

SketchVideo : Génération et édition vidéo basées sur des croquis

SketchVideo: Sketch-based Video Generation and Editing

March 30, 2025
Auteurs: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI

Résumé

La génération et l'édition de vidéos conditionnées par des invites textuelles ou des images ont connu des avancées significatives. Cependant, des défis subsistent pour contrôler avec précision la disposition globale et les détails géométriques uniquement par le texte, ainsi que pour supporter le contrôle du mouvement et les modifications locales via des images. Dans cet article, nous visons à réaliser un contrôle spatial et de mouvement basé sur des croquis pour la génération de vidéos, et à supporter une édition fine de vidéos réelles ou synthétiques. Basé sur le modèle de génération de vidéos DiT, nous proposons une structure de contrôle économe en mémoire avec des blocs de contrôle de croquis qui prédisent les caractéristiques résiduelles des blocs DiT sautés. Les croquis sont dessinés sur une ou deux images clés (à des points temporels arbitraires) pour une interaction facile. Pour propager ces conditions de croquis temporellement éparses à travers toutes les images, nous proposons un mécanisme d'attention inter-images pour analyser la relation entre les images clés et chaque image de la vidéo. Pour l'édition de vidéos basée sur des croquis, nous concevons un module d'insertion vidéo supplémentaire qui maintient la cohérence entre le contenu nouvellement édité et la caractéristique spatiale et le mouvement dynamique de la vidéo originale. Pendant l'inférence, nous utilisons la fusion latente pour la préservation précise des régions non éditées. Des expériences approfondies démontrent que notre SketchVideo atteint des performances supérieures en génération et édition de vidéos contrôlables.
English
Video generation and editing conditioned on text prompts or images have undergone significant advancements. However, challenges remain in accurately controlling global layout and geometry details solely by texts, and supporting motion control and local modification through images. In this paper, we aim to achieve sketch-based spatial and motion control for video generation and support fine-grained editing of real or synthetic videos. Based on the DiT video generation model, we propose a memory-efficient control structure with sketch control blocks that predict residual features of skipped DiT blocks. Sketches are drawn on one or two keyframes (at arbitrary time points) for easy interaction. To propagate such temporally sparse sketch conditions across all frames, we propose an inter-frame attention mechanism to analyze the relationship between the keyframes and each video frame. For sketch-based video editing, we design an additional video insertion module that maintains consistency between the newly edited content and the original video's spatial feature and dynamic motion. During inference, we use latent fusion for the accurate preservation of unedited regions. Extensive experiments demonstrate that our SketchVideo achieves superior performance in controllable video generation and editing.

Summary

AI-Generated Summary

PDF233April 1, 2025