VidEdit: Modifica Video Guidata da Testo con Consapevolezza Spaziale e Apprendimento Zero-Shot

Abstract

Recentemente, i modelli generativi basati sulla diffusione hanno ottenuto un notevole successo nella generazione e modifica di immagini. Tuttavia, il loro utilizzo per l'editing video incontra ancora importanti limitazioni. Questo articolo introduce VidEdit, un metodo innovativo per l'editing video basato su testo in modalità zero-shot, garantendo una forte coerenza temporale e spaziale. In primo luogo, proponiamo di combinare modelli di diffusione pre-addestrati per la generazione di immagini da testo con un approccio basato su atlanti, fornendo un metodo di editing efficiente e senza necessità di addestramento, che per progettazione assicura una transizione temporale fluida. In secondo luogo, sfruttiamo segmentatori panoptici già disponibili insieme a rilevatori di bordi, adattandoli per l'editing condizionato di atlanti basato sulla diffusione. Ciò garantisce un controllo spaziale preciso sulle regioni target, preservando rigorosamente la struttura del video originale. Esperimenti quantitativi e qualitativi dimostrano che VidEdit supera i metodi all'avanguardia sul dataset DAVIS, riguardo a fedeltà semantica, preservazione dell'immagine e metriche di coerenza temporale. Con questo framework, il processing di un singolo video richiede solo circa un minuto, ed è possibile generare multiple modifiche compatibili basate su un unico prompt testuale. Pagina web del progetto: https://videdit.github.io

English

Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io

VidEdit: Modifica Video Guidata da Testo con Consapevolezza Spaziale e Apprendimento Zero-Shot

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

Abstract

Support