SketchVideo: Schetsgebaseerde Videogeneratie en Bewerking
SketchVideo: Sketch-based Video Generation and Editing
March 30, 2025
Auteurs: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI
Samenvatting
Videogeneratie en -bewerking op basis van tekstprompts of afbeeldingen hebben aanzienlijke vooruitgang geboekt. Er blijven echter uitdagingen bestaan in het nauwkeurig beheersen van de globale lay-out en geometrische details uitsluitend via tekst, en het ondersteunen van bewegingscontrole en lokale aanpassingen via afbeeldingen. In dit artikel streven we ernaar om op schetsen gebaseerde ruimtelijke en bewegingscontrole te realiseren voor videogeneratie en fijnmazige bewerking van echte of synthetische video's te ondersteunen. Gebaseerd op het DiT-videogeneratiemodel stellen we een geheugenefficiënte controlestructuur voor met schetscontroleblokken die resterende kenmerken van overgeslagen DiT-blokken voorspellen. Schetsen worden getekend op één of twee keyframes (op willekeurige tijdstippen) voor eenvoudige interactie. Om dergelijke tijdelijk verspreide schetscondities over alle frames te verspreiden, stellen we een inter-frame aandachtmechanisme voor om de relatie tussen de keyframes en elk videoframe te analyseren. Voor op schetsen gebaseerde videobewerking ontwerpen we een aanvullende video-invoegmodule die consistentie behoudt tussen de nieuw bewerkte inhoud en de ruimtelijke kenmerken en dynamische beweging van de originele video. Tijdens de inferentie gebruiken we latente fusie voor het nauwkeurig behouden van onbewerkte regio's. Uitgebreide experimenten tonen aan dat onze SketchVideo superieure prestaties levert in controleerbare videogeneratie en -bewerking.
English
Video generation and editing conditioned on text prompts or images have
undergone significant advancements. However, challenges remain in accurately
controlling global layout and geometry details solely by texts, and supporting
motion control and local modification through images. In this paper, we aim to
achieve sketch-based spatial and motion control for video generation and
support fine-grained editing of real or synthetic videos. Based on the DiT
video generation model, we propose a memory-efficient control structure with
sketch control blocks that predict residual features of skipped DiT blocks.
Sketches are drawn on one or two keyframes (at arbitrary time points) for easy
interaction. To propagate such temporally sparse sketch conditions across all
frames, we propose an inter-frame attention mechanism to analyze the
relationship between the keyframes and each video frame. For sketch-based video
editing, we design an additional video insertion module that maintains
consistency between the newly edited content and the original video's spatial
feature and dynamic motion. During inference, we use latent fusion for the
accurate preservation of unedited regions. Extensive experiments demonstrate
that our SketchVideo achieves superior performance in controllable video
generation and editing.Summary
AI-Generated Summary