SketchVideo: Geração e Edição de Vídeos Baseada em Esboços
SketchVideo: Sketch-based Video Generation and Editing
March 30, 2025
Autores: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI
Resumo
A geração e edição de vídeos condicionadas por prompts de texto ou imagens passaram por avanços significativos. No entanto, desafios permanecem no controle preciso do layout global e dos detalhes geométricos apenas por textos, e no suporte ao controle de movimento e modificações locais por meio de imagens. Neste artigo, buscamos alcançar o controle espacial e de movimento baseado em esboços para a geração de vídeos e suportar a edição refinada de vídeos reais ou sintéticos. Com base no modelo de geração de vídeos DiT, propomos uma estrutura de controle eficiente em memória com blocos de controle de esboços que preveem características residuais dos blocos DiT ignorados. Esboços são desenhados em um ou dois quadros-chave (em pontos de tempo arbitrários) para facilitar a interação. Para propagar essas condições de esboço temporalmente esparsas por todos os quadros, propomos um mecanismo de atenção inter-quadros para analisar a relação entre os quadros-chave e cada quadro do vídeo. Para a edição de vídeos baseada em esboços, projetamos um módulo adicional de inserção de vídeo que mantém a consistência entre o conteúdo recém-editado e a característica espacial e o movimento dinâmico do vídeo original. Durante a inferência, utilizamos fusão latente para a preservação precisa das regiões não editadas. Experimentos extensivos demonstram que nosso SketchVideo alcança desempenho superior na geração e edição controlável de vídeos.
English
Video generation and editing conditioned on text prompts or images have
undergone significant advancements. However, challenges remain in accurately
controlling global layout and geometry details solely by texts, and supporting
motion control and local modification through images. In this paper, we aim to
achieve sketch-based spatial and motion control for video generation and
support fine-grained editing of real or synthetic videos. Based on the DiT
video generation model, we propose a memory-efficient control structure with
sketch control blocks that predict residual features of skipped DiT blocks.
Sketches are drawn on one or two keyframes (at arbitrary time points) for easy
interaction. To propagate such temporally sparse sketch conditions across all
frames, we propose an inter-frame attention mechanism to analyze the
relationship between the keyframes and each video frame. For sketch-based video
editing, we design an additional video insertion module that maintains
consistency between the newly edited content and the original video's spatial
feature and dynamic motion. During inference, we use latent fusion for the
accurate preservation of unedited regions. Extensive experiments demonstrate
that our SketchVideo achieves superior performance in controllable video
generation and editing.Summary
AI-Generated Summary