ChatPaper.aiChatPaper

VidEdit: Edición de video impulsada por texto con reconocimiento espacial y sin ejemplos previos

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

June 14, 2023
Autores: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI

Resumen

Recientemente, los modelos generativos basados en difusión han logrado un éxito notable en la generación y edición de imágenes. Sin embargo, su uso para la edición de videos aún enfrenta limitaciones importantes. Este artículo presenta VidEdit, un método novedoso para la edición de videos basada en texto sin necesidad de entrenamiento previo, garantizando una fuerte consistencia temporal y espacial. En primer lugar, proponemos combinar modelos de difusión basados en atlas y preentrenados para la generación de imágenes a partir de texto, ofreciendo un método de edición eficiente y sin entrenamiento que, por diseño, cumple con la suavidad temporal. En segundo lugar, aprovechamos segmentadores panópticos disponibles junto con detectores de bordes y adaptamos su uso para la edición de atlas basada en difusión condicionada. Esto asegura un control espacial preciso sobre las regiones objetivo mientras se preserva estrictamente la estructura del video original. Los experimentos cuantitativos y cualitativos muestran que VidEdit supera a los métodos más avanzados en el conjunto de datos DAVIS, en términos de fidelidad semántica, preservación de la imagen y métricas de consistencia temporal. Con este marco, procesar un solo video toma aproximadamente un minuto, y puede generar múltiples ediciones compatibles basadas en una única indicación de texto. Página del proyecto en https://videdit.github.io.
English
Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
PDF61December 15, 2024