VidEdit: Edición de video impulsada por texto con reconocimiento espacial y sin ejemplos previos
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
June 14, 2023
Autores: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI
Resumen
Recientemente, los modelos generativos basados en difusión han logrado un éxito notable en la generación y edición de imágenes. Sin embargo, su uso para la edición de videos aún enfrenta limitaciones importantes. Este artículo presenta VidEdit, un método novedoso para la edición de videos basada en texto sin necesidad de entrenamiento previo, garantizando una fuerte consistencia temporal y espacial. En primer lugar, proponemos combinar modelos de difusión basados en atlas y preentrenados para la generación de imágenes a partir de texto, ofreciendo un método de edición eficiente y sin entrenamiento que, por diseño, cumple con la suavidad temporal. En segundo lugar, aprovechamos segmentadores panópticos disponibles junto con detectores de bordes y adaptamos su uso para la edición de atlas basada en difusión condicionada. Esto asegura un control espacial preciso sobre las regiones objetivo mientras se preserva estrictamente la estructura del video original. Los experimentos cuantitativos y cualitativos muestran que VidEdit supera a los métodos más avanzados en el conjunto de datos DAVIS, en términos de fidelidad semántica, preservación de la imagen y métricas de consistencia temporal. Con este marco, procesar un solo video toma aproximadamente un minuto, y puede generar múltiples ediciones compatibles basadas en una única indicación de texto. Página del proyecto en https://videdit.github.io.
English
Recently, diffusion-based generative models have achieved remarkable success
for image generation and edition. However, their use for video editing still
faces important limitations. This paper introduces VidEdit, a novel method for
zero-shot text-based video editing ensuring strong temporal and spatial
consistency. Firstly, we propose to combine atlas-based and pre-trained
text-to-image diffusion models to provide a training-free and efficient editing
method, which by design fulfills temporal smoothness. Secondly, we leverage
off-the-shelf panoptic segmenters along with edge detectors and adapt their use
for conditioned diffusion-based atlas editing. This ensures a fine spatial
control on targeted regions while strictly preserving the structure of the
original video. Quantitative and qualitative experiments show that VidEdit
outperforms state-of-the-art methods on DAVIS dataset, regarding semantic
faithfulness, image preservation, and temporal consistency metrics. With this
framework, processing a single video only takes approximately one minute, and
it can generate multiple compatible edits based on a unique text prompt.
Project web-page at https://videdit.github.io