ChatPaper.aiChatPaper

VidEdit : Édition vidéo pilotée par texte avec conscience spatiale et apprentissage zéro-shot

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

June 14, 2023
Auteurs: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI

Résumé

Récemment, les modèles génératifs basés sur la diffusion ont obtenu un succès remarquable pour la génération et l'édition d'images. Cependant, leur utilisation pour l'édition vidéo rencontre encore des limitations importantes. Cet article présente VidEdit, une nouvelle méthode d'édition vidéo basée sur le texte en zero-shot, garantissant une forte cohérence temporelle et spatiale. Premièrement, nous proposons de combiner des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte avec une approche basée sur les atlas, fournissant ainsi une méthode d'édition efficace et sans entraînement, qui par conception assure une fluidité temporelle. Deuxièmement, nous exploitons des segmenteurs panoptiques prêts à l'emploi ainsi que des détecteurs de contours, et adaptons leur utilisation pour l'édition d'atlas basée sur la diffusion conditionnée. Cela permet un contrôle spatial précis des régions ciblées tout en préservant strictement la structure de la vidéo originale. Les expériences quantitatives et qualitatives montrent que VidEdit surpasse les méthodes de pointe sur le jeu de données DAVIS en termes de fidélité sémantique, de préservation de l'image et de métriques de cohérence temporelle. Avec ce framework, le traitement d'une seule vidéo ne prend qu'environ une minute, et il peut générer plusieurs modifications compatibles à partir d'une unique instruction textuelle. Page web du projet : https://videdit.github.io
English
Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
PDF61December 15, 2024