ChatPaper.aiChatPaper

Make-A-Protagonist: Универсальное редактирование видео с использованием ансамбля экспертов

Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts

May 15, 2023
Авторы: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
cs.AI

Аннотация

Модели диффузии для генерации изображений и видео на основе текста достигли беспрецедентного успеха в создании реалистичного и разнообразного контента. В последнее время значительное внимание привлекли задачи редактирования и вариации существующих изображений и видео в рамках диффузионных генеративных моделей. Однако предыдущие работы ограничивались редактированием контента с использованием текста или предоставлением грубой персонализации на основе единственного визуального ключа, что делает их непригодными для работы с неописуемым контентом, требующим детализированного и точного контроля. В связи с этим мы предлагаем универсальную структуру для редактирования видео под названием Make-A-Protagonist, которая использует текстовые и визуальные ключи для редактирования видео с целью предоставления пользователям возможности стать главными героями. В частности, мы задействуем несколько экспертов для анализа исходного видео, целевых визуальных и текстовых ключей и предлагаем модель генерации видео на основе визуально-текстовых данных, которая использует маскированное шумоподавляющее сэмплирование для создания желаемого результата. Многочисленные эксперименты демонстрируют универсальные и впечатляющие возможности редактирования Make-A-Protagonist.
English
The text-driven image and video diffusion models have achieved unprecedented success in generating realistic and diverse content. Recently, the editing and variation of existing images and videos in diffusion-based generative models have garnered significant attention. However, previous works are limited to editing content with text or providing coarse personalization using a single visual clue, rendering them unsuitable for indescribable content that requires fine-grained and detailed control. In this regard, we propose a generic video editing framework called Make-A-Protagonist, which utilizes textual and visual clues to edit videos with the goal of empowering individuals to become the protagonists. Specifically, we leverage multiple experts to parse source video, target visual and textual clues, and propose a visual-textual-based video generation model that employs mask-guided denoising sampling to generate the desired output. Extensive results demonstrate the versatile and remarkable editing capabilities of Make-A-Protagonist.
PDF10December 15, 2024