ChatPaper.aiChatPaper

DragVideo: Интерактивное редактирование видео в стиле перетаскивания

DragVideo: Interactive Drag-style Video Editing

December 3, 2023
Авторы: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
cs.AI

Аннотация

Редактирование визуального контента в видео остается сложной задачей, связанной с двумя основными проблемами: 1) обеспечение прямого и удобного управления со стороны пользователя для получения 2) естественных результатов редактирования без видимых искажений и артефактов после изменения формы, выражения и компоновки. Вдохновленные DragGAN, недавней техникой редактирования изображений в стиле "перетаскивания", мы решаем указанные проблемы, предлагая DragVideo, где используется аналогичный стиль взаимодействия с пользователем для редактирования видеоконтента с сохранением временной согласованности. Благодаря использованию современных диффузионных моделей, как в DragDiffusion, DragVideo включает новый метод редактирования Drag-on-Video U-Net (DoVe), который оптимизирует латентные представления видео, сгенерированные видео U-Net, для достижения желаемого контроля. В частности, мы используем тонкую настройку LoRA для конкретных образцов и управление Mutual Self-Attention для обеспечения точного восстановления видео с помощью метода DoVe. Мы также представляем серию тестовых примеров для редактирования видео в стиле "перетаскивания" и проводим обширные эксперименты в широком спектре сложных задач редактирования, таких как редактирование движения, скелета и других, подчеркивая универсальность и общность DragVideo. Наши коды, включая веб-интерфейс пользователя DragVideo, будут опубликованы.
English
Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.
PDF131December 15, 2024