Make-A-Protagonist: Универсальное редактирование видео с использованием ансамбля экспертов
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
May 15, 2023
Авторы: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
cs.AI
Аннотация
Модели диффузии для генерации изображений и видео на основе текста достигли беспрецедентного успеха в создании реалистичного и разнообразного контента. В последнее время значительное внимание привлекли задачи редактирования и вариации существующих изображений и видео в рамках диффузионных генеративных моделей. Однако предыдущие работы ограничивались редактированием контента с использованием текста или предоставлением грубой персонализации на основе единственного визуального ключа, что делает их непригодными для работы с неописуемым контентом, требующим детализированного и точного контроля. В связи с этим мы предлагаем универсальную структуру для редактирования видео под названием Make-A-Protagonist, которая использует текстовые и визуальные ключи для редактирования видео с целью предоставления пользователям возможности стать главными героями. В частности, мы задействуем несколько экспертов для анализа исходного видео, целевых визуальных и текстовых ключей и предлагаем модель генерации видео на основе визуально-текстовых данных, которая использует маскированное шумоподавляющее сэмплирование для создания желаемого результата. Многочисленные эксперименты демонстрируют универсальные и впечатляющие возможности редактирования Make-A-Protagonist.
English
The text-driven image and video diffusion models have achieved unprecedented
success in generating realistic and diverse content. Recently, the editing and
variation of existing images and videos in diffusion-based generative models
have garnered significant attention. However, previous works are limited to
editing content with text or providing coarse personalization using a single
visual clue, rendering them unsuitable for indescribable content that requires
fine-grained and detailed control. In this regard, we propose a generic video
editing framework called Make-A-Protagonist, which utilizes textual and visual
clues to edit videos with the goal of empowering individuals to become the
protagonists. Specifically, we leverage multiple experts to parse source video,
target visual and textual clues, and propose a visual-textual-based video
generation model that employs mask-guided denoising sampling to generate the
desired output. Extensive results demonstrate the versatile and remarkable
editing capabilities of Make-A-Protagonist.