VidEdit: Zero-Shot en ruimtelijk bewust tekstgestuurd videobewerken
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
June 14, 2023
Auteurs: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome
cs.AI
Samenvatting
Onlangs hebben op diffusie gebaseerde generatieve modellen opmerkelijke successen geboekt bij beeldgeneratie en -bewerking. Het gebruik ervan voor videobewerking stuit echter nog steeds op belangrijke beperkingen. Dit artikel introduceert VidEdit, een nieuwe methode voor zero-shot tekstgebaseerde videobewerking die sterke temporele en ruimtelijke consistentie garandeert. Ten eerste stellen we voor om atlasgebaseerde en vooraf getrainde tekst-naar-beeld diffusiemodellen te combineren om een trainingsvrije en efficiënte bewerkingsmethode te bieden, die van nature temporele vloeiendheid waarborgt. Ten tweede maken we gebruik van kant-en-klare panoptische segmentatietools samen met randdetectoren en passen we hun gebruik aan voor geconditioneerde diffusiegebaseerde atlasbewerking. Dit zorgt voor een fijne ruimtelijke controle op doelgebieden terwijl de structuur van de originele video strikt behouden blijft. Kwantitatieve en kwalitatieve experimenten tonen aan dat VidEdit state-of-the-art methoden overtreft op de DAVIS-dataset, wat betreft semantische trouw, beeldbehoud en temporele consistentiemetrieken. Met dit framework duurt het verwerken van een enkele video slechts ongeveer één minuut, en kan het meerdere compatibele bewerkingen genereren op basis van een unieke tekstprompt. Projectwebpagina op https://videdit.github.io
English
Recently, diffusion-based generative models have achieved remarkable success
for image generation and edition. However, their use for video editing still
faces important limitations. This paper introduces VidEdit, a novel method for
zero-shot text-based video editing ensuring strong temporal and spatial
consistency. Firstly, we propose to combine atlas-based and pre-trained
text-to-image diffusion models to provide a training-free and efficient editing
method, which by design fulfills temporal smoothness. Secondly, we leverage
off-the-shelf panoptic segmenters along with edge detectors and adapt their use
for conditioned diffusion-based atlas editing. This ensures a fine spatial
control on targeted regions while strictly preserving the structure of the
original video. Quantitative and qualitative experiments show that VidEdit
outperforms state-of-the-art methods on DAVIS dataset, regarding semantic
faithfulness, image preservation, and temporal consistency metrics. With this
framework, processing a single video only takes approximately one minute, and
it can generate multiple compatible edits based on a unique text prompt.
Project web-page at https://videdit.github.io