ChatPaper.aiChatPaper

ControlVideo: Добавление условного управления для одношагового редактирования текста в видео

ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing

May 26, 2023
Авторы: Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu
cs.AI

Аннотация

В данной статье мы представляем ControlVideo — новый метод редактирования видео на основе текста. Используя возможности моделей диффузии для генерации изображений из текста и ControlNet, ControlVideo стремится повысить точность и временную согласованность видео, соответствующих заданному тексту, при сохранении структуры исходного видео. Это достигается за счет включения дополнительных условий, таких как карты границ, тонкой настройки ключевых кадров и временного внимания на паре исходное видео-текст с использованием тщательно разработанных стратегий. Проведено детальное исследование архитектуры ControlVideo, чтобы способствовать дальнейшим исследованиям в области однослойной настройки моделей диффузии для видео. Количественные результаты показывают, что ControlVideo превосходит ряд конкурентоспособных базовых методов по точности и согласованности, оставаясь при этом в соответствии с текстовым запросом. Кроме того, метод создает видео с высокой визуальной реалистичностью и точностью по отношению к исходному контенту, демонстрируя гибкость в использовании управляющих элементов, содержащих различную степень информации об исходном видео, а также потенциал для комбинирования нескольких управляющих элементов. Страница проекта доступна по адресу https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
English
In this paper, we present ControlVideo, a novel method for text-driven video editing. Leveraging the capabilities of text-to-image diffusion models and ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency of videos that align with a given text while preserving the structure of the source video. This is achieved by incorporating additional conditions such as edge maps, fine-tuning the key-frame and temporal attention on the source video-text pair with carefully designed strategies. An in-depth exploration of ControlVideo's design is conducted to inform future research on one-shot tuning video diffusion models. Quantitatively, ControlVideo outperforms a range of competitive baselines in terms of faithfulness and consistency while still aligning with the textual prompt. Additionally, it delivers videos with high visual realism and fidelity w.r.t. the source content, demonstrating flexibility in utilizing controls containing varying degrees of source video information, and the potential for multiple control combinations. The project page is available at https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
PDF33December 15, 2024