DragVideo: Интерактивное редактирование видео в стиле перетаскивания
DragVideo: Interactive Drag-style Video Editing
December 3, 2023
Авторы: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI
Аннотация
Редактирование визуального контента в видео остается сложной задачей, связанной с двумя основными проблемами: 1) обеспечение прямого и удобного управления со стороны пользователя для получения 2) естественных результатов редактирования без видимых искажений и артефактов после изменения формы, выражения и компоновки. Вдохновленные DragGAN, недавней техникой редактирования изображений в стиле "перетаскивания", мы решаем указанные проблемы, предлагая DragVideo, где используется аналогичный стиль взаимодействия с пользователем для редактирования видеоконтента с сохранением временной согласованности. Благодаря использованию современных диффузионных моделей, как в DragDiffusion, DragVideo включает новый метод редактирования Drag-on-Video U-Net (DoVe), который оптимизирует латентные представления видео, сгенерированные видео U-Net, для достижения желаемого контроля. В частности, мы используем тонкую настройку LoRA для конкретных образцов и управление Mutual Self-Attention для обеспечения точного восстановления видео с помощью метода DoVe. Мы также представляем серию тестовых примеров для редактирования видео в стиле "перетаскивания" и проводим обширные эксперименты в широком спектре сложных задач редактирования, таких как редактирование движения, скелета и других, подчеркивая универсальность и общность DragVideo. Наши коды, включая веб-интерфейс пользователя DragVideo, будут опубликованы.
English
Editing visual content on videos remains a formidable challenge with two main
issues: 1) direct and easy user control to produce 2) natural editing results
without unsightly distortion and artifacts after changing shape, expression and
layout. Inspired by DragGAN, a recent image-based drag-style editing technique,
we address above issues by proposing DragVideo, where a similar drag-style user
interaction is adopted to edit video content while maintaining temporal
consistency. Empowered by recent diffusion models as in DragDiffusion,
DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which
optimizes diffused video latents generated by video U-Net to achieve the
desired control. Specifically, we use Sample-specific LoRA fine-tuning and
Mutual Self-Attention control to ensure faithful reconstruction of video from
the DoVe method. We also present a series of testing examples for drag-style
video editing and conduct extensive experiments across a wide array of
challenging editing tasks, such as motion editing, skeleton editing, etc,
underscoring DragVideo's versatility and generality. Our codes including the
DragVideo web user interface will be released.