VidEdit: Modifica Video Guidata da Testo con Consapevolezza Spaziale e Apprendimento Zero-Shot
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
June 14, 2023
Autori: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI
Abstract
Recentemente, i modelli generativi basati sulla diffusione hanno ottenuto un notevole successo nella generazione e modifica di immagini. Tuttavia, il loro utilizzo per l'editing video incontra ancora importanti limitazioni. Questo articolo introduce VidEdit, un metodo innovativo per l'editing video basato su testo in modalità zero-shot, garantendo una forte coerenza temporale e spaziale. In primo luogo, proponiamo di combinare modelli di diffusione pre-addestrati per la generazione di immagini da testo con un approccio basato su atlanti, fornendo un metodo di editing efficiente e senza necessità di addestramento, che per progettazione assicura una transizione temporale fluida. In secondo luogo, sfruttiamo segmentatori panoptici già disponibili insieme a rilevatori di bordi, adattandoli per l'editing condizionato di atlanti basato sulla diffusione. Ciò garantisce un controllo spaziale preciso sulle regioni target, preservando rigorosamente la struttura del video originale. Esperimenti quantitativi e qualitativi dimostrano che VidEdit supera i metodi all'avanguardia sul dataset DAVIS, riguardo a fedeltà semantica, preservazione dell'immagine e metriche di coerenza temporale. Con questo framework, il processing di un singolo video richiede solo circa un minuto, ed è possibile generare multiple modifiche compatibili basate su un unico prompt testuale. Pagina web del progetto: https://videdit.github.io
English
Recently, diffusion-based generative models have achieved remarkable success
for image generation and edition. However, their use for video editing still
faces important limitations. This paper introduces VidEdit, a novel method for
zero-shot text-based video editing ensuring strong temporal and spatial
consistency. Firstly, we propose to combine atlas-based and pre-trained
text-to-image diffusion models to provide a training-free and efficient editing
method, which by design fulfills temporal smoothness. Secondly, we leverage
off-the-shelf panoptic segmenters along with edge detectors and adapt their use
for conditioned diffusion-based atlas editing. This ensures a fine spatial
control on targeted regions while strictly preserving the structure of the
original video. Quantitative and qualitative experiments show that VidEdit
outperforms state-of-the-art methods on DAVIS dataset, regarding semantic
faithfulness, image preservation, and temporal consistency metrics. With this
framework, processing a single video only takes approximately one minute, and
it can generate multiple compatible edits based on a unique text prompt.
Project web-page at https://videdit.github.io