SketchVideo: Генерация и редактирование видео на основе эскизов
SketchVideo: Sketch-based Video Generation and Editing
March 30, 2025
Авторы: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI
Аннотация
Генерация и редактирование видео на основе текстовых запросов или изображений достигли значительного прогресса. Однако остаются сложности в точном управлении глобальной композицией и геометрическими деталями исключительно с помощью текста, а также в поддержке управления движением и локального редактирования через изображения. В данной работе мы стремимся достичь пространственного и динамического управления на основе эскизов для генерации видео, а также поддержать детализированное редактирование реальных или синтетических видео. На основе модели генерации видео DiT мы предлагаем эффективную по памяти управляющую структуру с блоками управления эскизами, которые предсказывают остаточные признаки пропущенных блоков DiT. Эскизы рисуются на одном или двух ключевых кадрах (в произвольные моменты времени) для удобства взаимодействия. Для распространения таких временно разреженных условий эскизов на все кадры мы предлагаем механизм межкадрового внимания, анализирующий связь между ключевыми кадрами и каждым кадром видео. Для редактирования видео на основе эскизов мы разрабатываем дополнительный модуль вставки видео, который обеспечивает согласованность между новым отредактированным содержимым и пространственными признаками, а также динамикой движения исходного видео. Во время вывода мы используем латентное слияние для точного сохранения нередактируемых областей. Многочисленные эксперименты демонстрируют, что наш метод SketchVideo достигает превосходных результатов в управляемой генерации и редактировании видео.
English
Video generation and editing conditioned on text prompts or images have
undergone significant advancements. However, challenges remain in accurately
controlling global layout and geometry details solely by texts, and supporting
motion control and local modification through images. In this paper, we aim to
achieve sketch-based spatial and motion control for video generation and
support fine-grained editing of real or synthetic videos. Based on the DiT
video generation model, we propose a memory-efficient control structure with
sketch control blocks that predict residual features of skipped DiT blocks.
Sketches are drawn on one or two keyframes (at arbitrary time points) for easy
interaction. To propagate such temporally sparse sketch conditions across all
frames, we propose an inter-frame attention mechanism to analyze the
relationship between the keyframes and each video frame. For sketch-based video
editing, we design an additional video insertion module that maintains
consistency between the newly edited content and the original video's spatial
feature and dynamic motion. During inference, we use latent fusion for the
accurate preservation of unedited regions. Extensive experiments demonstrate
that our SketchVideo achieves superior performance in controllable video
generation and editing.Summary
AI-Generated Summary