Make-A-Protagonista: Edición Genérica de Videos con un Conjunto de Expertos

Resumen

Los modelos de difusión de imágenes y videos impulsados por texto han logrado un éxito sin precedentes en la generación de contenido realista y diverso. Recientemente, la edición y variación de imágenes y videos existentes en modelos generativos basados en difusión han captado una atención significativa. Sin embargo, trabajos previos se limitan a editar contenido con texto o a ofrecer una personalización rudimentaria utilizando una única pista visual, lo que los hace inadecuados para contenido indescriptible que requiere un control detallado y de grano fino. En este sentido, proponemos un marco genérico de edición de videos llamado Make-A-Protagonist, que utiliza pistas textuales y visuales para editar videos con el objetivo de empoderar a los individuos para convertirse en protagonistas. Específicamente, aprovechamos múltiples expertos para analizar el video fuente, las pistas visuales y textuales objetivo, y proponemos un modelo de generación de videos basado en texto y visuales que emplea un muestreo de eliminación de ruido guiado por máscaras para generar el resultado deseado. Resultados extensos demuestran las capacidades versátiles y notables de edición de Make-A-Protagonist.

English

The text-driven image and video diffusion models have achieved unprecedented success in generating realistic and diverse content. Recently, the editing and variation of existing images and videos in diffusion-based generative models have garnered significant attention. However, previous works are limited to editing content with text or providing coarse personalization using a single visual clue, rendering them unsuitable for indescribable content that requires fine-grained and detailed control. In this regard, we propose a generic video editing framework called Make-A-Protagonist, which utilizes textual and visual clues to edit videos with the goal of empowering individuals to become the protagonists. Specifically, we leverage multiple experts to parse source video, target visual and textual clues, and propose a visual-textual-based video generation model that employs mask-guided denoising sampling to generate the desired output. Extensive results demonstrate the versatile and remarkable editing capabilities of Make-A-Protagonist.

Make-A-Protagonista: Edición Genérica de Videos con un Conjunto de Expertos

Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts

Resumen

Support