VidEdit: Edição de Vídeo Orientada por Texto com Consciência Espacial e Capacidade Zero-Shot

Resumo

Recentemente, modelos generativos baseados em difusão alcançaram sucesso notável na geração e edição de imagens. No entanto, seu uso para edição de vídeo ainda enfrenta limitações importantes. Este artigo apresenta o VidEdit, um método inovador para edição de vídeo baseada em texto em zero-shot, garantindo forte consistência temporal e espacial. Primeiramente, propomos combinar modelos de difusão pré-treinados para texto-imagem com atlas, fornecendo um método de edição eficiente e sem necessidade de treinamento, que por design cumpre a suavidade temporal. Em segundo lugar, aproveitamos segmentadores panópticos prontos para uso, juntamente com detectores de bordas, e adaptamos seu uso para edição de atlas baseada em difusão condicionada. Isso garante um controle espacial refinado sobre regiões específicas, preservando estritamente a estrutura do vídeo original. Experimentos quantitativos e qualitativos mostram que o VidEdit supera métodos state-of-the-art no conjunto de dados DAVIS, em relação a métricas de fidelidade semântica, preservação de imagem e consistência temporal. Com essa estrutura, o processamento de um único vídeo leva aproximadamente um minuto, e é possível gerar múltiplas edições compatíveis com base em um único prompt de texto. Página do projeto em https://videdit.github.io.

English

Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io

VidEdit: Edição de Vídeo Orientada por Texto com Consciência Espacial e Capacidade Zero-Shot

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

Resumo

Support