SketchVideo: Generación y Edición de Videos Basados en Bocetos
SketchVideo: Sketch-based Video Generation and Editing
March 30, 2025
Autores: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI
Resumen
La generación y edición de videos condicionados por indicaciones de texto o imágenes han experimentado avances significativos. Sin embargo, persisten desafíos en el control preciso del diseño global y los detalles geométricos únicamente mediante textos, así como en el soporte de control de movimiento y modificación local a través de imágenes. En este artículo, buscamos lograr un control espacial y de movimiento basado en bocetos para la generación de videos, además de apoyar la edición detallada de videos reales o sintéticos. Basándonos en el modelo de generación de videos DiT, proponemos una estructura de control eficiente en memoria con bloques de control de bocetos que predicen características residuales de los bloques DiT omitidos. Los bocetos se dibujan en uno o dos fotogramas clave (en puntos temporales arbitrarios) para facilitar la interacción. Para propagar estas condiciones de boceto temporalmente dispersas a lo largo de todos los fotogramas, proponemos un mecanismo de atención entre fotogramas que analiza la relación entre los fotogramas clave y cada fotograma del video. Para la edición de videos basada en bocetos, diseñamos un módulo adicional de inserción de video que mantiene la coherencia entre el contenido recién editado y la característica espacial y el movimiento dinámico del video original. Durante la inferencia, utilizamos fusión latente para la preservación precisa de las regiones no editadas. Experimentos extensos demuestran que nuestro SketchVideo logra un rendimiento superior en la generación y edición de videos controlables.
English
Video generation and editing conditioned on text prompts or images have
undergone significant advancements. However, challenges remain in accurately
controlling global layout and geometry details solely by texts, and supporting
motion control and local modification through images. In this paper, we aim to
achieve sketch-based spatial and motion control for video generation and
support fine-grained editing of real or synthetic videos. Based on the DiT
video generation model, we propose a memory-efficient control structure with
sketch control blocks that predict residual features of skipped DiT blocks.
Sketches are drawn on one or two keyframes (at arbitrary time points) for easy
interaction. To propagate such temporally sparse sketch conditions across all
frames, we propose an inter-frame attention mechanism to analyze the
relationship between the keyframes and each video frame. For sketch-based video
editing, we design an additional video insertion module that maintains
consistency between the newly edited content and the original video's spatial
feature and dynamic motion. During inference, we use latent fusion for the
accurate preservation of unedited regions. Extensive experiments demonstrate
that our SketchVideo achieves superior performance in controllable video
generation and editing.Summary
AI-Generated Summary