PEEKABOO: Generación Interactiva de Videos mediante Difusión Enmascarada

Resumen

Recientemente ha habido un progreso significativo en la generación de texto a video, con modelos de última generación capaces de producir videos de alta calidad y realistas. Sin embargo, estos modelos carecen de la capacidad para que los usuarios controlen y generen videos de manera interactiva, lo que podría desbloquear nuevas áreas de aplicación. Como primer paso hacia este objetivo, abordamos el problema de dotar a los modelos de generación de videos basados en difusión con control espacio-temporal interactivo sobre su salida. Para ello, nos inspiramos en los avances recientes en la literatura de segmentación para proponer un nuevo módulo de atención enmascarada espacio-temporal: Peekaboo. Este módulo es una adición sin necesidad de entrenamiento y sin sobrecarga en la inferencia a los modelos de generación de video disponibles, lo que permite el control espacio-temporal. También proponemos un punto de referencia de evaluación para la tarea de generación de video interactivo. A través de una extensa evaluación cualitativa y cuantitativa, establecemos que Peekaboo permite la generación de video controlado e incluso obtiene una mejora de hasta 3.8x en mIoU sobre los modelos de referencia.

English

Recently there has been a lot of progress in text-to-video generation, with state-of-the-art models being capable of generating high quality, realistic videos. However, these models lack the capability for users to interactively control and generate videos, which can potentially unlock new areas of application. As a first step towards this goal, we tackle the problem of endowing diffusion-based video generation models with interactive spatio-temporal control over their output. To this end, we take inspiration from the recent advances in segmentation literature to propose a novel spatio-temporal masked attention module - Peekaboo. This module is a training-free, no-inference-overhead addition to off-the-shelf video generation models which enables spatio-temporal control. We also propose an evaluation benchmark for the interactive video generation task. Through extensive qualitative and quantitative evaluation, we establish that Peekaboo enables control video generation and even obtains a gain of upto 3.8x in mIoU over baseline models.

PEEKABOO: Generación Interactiva de Videos mediante Difusión Enmascarada

PEEKABOO: Interactive Video Generation via Masked-Diffusion

Resumen

Support