Object-Centric Diffusie voor Efficiënte Videobewerking

Samenvatting

Diffusiegebaseerde videobewerking heeft indrukwekkende kwaliteit bereikt en kan zowel de globale stijl, lokale structuur als attributen van gegeven video-invoer transformeren, volgens tekstuele bewerkingsprompts. Dergelijke oplossingen brengen echter doorgaans zware geheugen- en rekenkosten met zich mee om temporeel coherente frames te genereren, hetzij in de vorm van diffusie- inversie en/of cross-frame aandacht. In dit artikel voeren we een analyse uit van dergelijke inefficiënties en stellen we eenvoudige maar effectieve aanpassingen voor die aanzienlijke versnellingen mogelijk maken terwijl de kwaliteit behouden blijft. Bovendien introduceren we Object-Centric Diffusion, afgekort als OCD, om de latentie verder te verminderen door berekeningen meer toe te wijzen aan bewerkte voorgrondregio's die naar alle waarschijnlijkheid belangrijker zijn voor de perceptuele kwaliteit. We bereiken dit door twee nieuwe voorstellen: i) Object-Centric Sampling, waarbij de diffusiestappen die worden besteed aan opvallende regio's of de achtergrond worden ontkoppeld, en het grootste deel van de modelcapaciteit aan de eerste wordt toegewezen, en ii) Object-Centric 3D Token Merging, wat de kosten van cross-frame aandacht vermindert door redundante tokens in onbelangrijke achtergrondregio's samen te voegen. Beide technieken zijn direct toepasbaar op een gegeven videobewerkingsmodel zonder hertraining, en kunnen de geheugen- en rekenkosten ervan drastisch verminderen. We evalueren onze voorstellen op inversiegebaseerde en controlesignaalgebaseerde bewerkingspijplijnen en tonen een latentiereductie tot 10x bij een vergelijkbare synthesekwaliteit.

English

Diffusion-based video editing have reached impressive quality and can transform either the global style, local structure, and attributes of given video inputs, following textual edit prompts. However, such solutions typically incur heavy memory and computational costs to generate temporally-coherent frames, either in the form of diffusion inversion and/or cross-frame attention. In this paper, we conduct an analysis of such inefficiencies, and suggest simple yet effective modifications that allow significant speed-ups whilst maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as OCD, to further reduce latency by allocating computations more towards foreground edited regions that are arguably more important for perceptual quality. We achieve this by two novel proposals: i) Object-Centric Sampling, decoupling the diffusion steps spent on salient regions or background, allocating most of the model capacity to the former, and ii) Object-Centric 3D Token Merging, which reduces cost of cross-frame attention by fusing redundant tokens in unimportant background regions. Both techniques are readily applicable to a given video editing model without retraining, and can drastically reduce its memory and computational cost. We evaluate our proposals on inversion-based and control-signal-based editing pipelines, and show a latency reduction up to 10x for a comparable synthesis quality.

Object-Centric Diffusie voor Efficiënte Videobewerking

Object-Centric Diffusion for Efficient Video Editing

Samenvatting

Support