Object-Centric Diffusie voor Efficiënte Videobewerking
Object-Centric Diffusion for Efficient Video Editing
January 11, 2024
Auteurs: Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian
cs.AI
Samenvatting
Diffusiegebaseerde videobewerking heeft indrukwekkende kwaliteit bereikt en kan
zowel de globale stijl, lokale structuur als attributen van gegeven
video-invoer transformeren, volgens tekstuele bewerkingsprompts. Dergelijke
oplossingen brengen echter doorgaans zware geheugen- en rekenkosten met zich mee
om temporeel coherente frames te genereren, hetzij in de vorm van diffusie-
inversie en/of cross-frame aandacht. In dit artikel voeren we een analyse uit
van dergelijke inefficiënties en stellen we eenvoudige maar effectieve
aanpassingen voor die aanzienlijke versnellingen mogelijk maken terwijl de
kwaliteit behouden blijft. Bovendien introduceren we Object-Centric Diffusion,
afgekort als OCD, om de latentie verder te verminderen door berekeningen meer
toe te wijzen aan bewerkte voorgrondregio's die naar alle waarschijnlijkheid
belangrijker zijn voor de perceptuele kwaliteit. We bereiken dit door twee
nieuwe voorstellen: i) Object-Centric Sampling, waarbij de diffusiestappen die
worden besteed aan opvallende regio's of de achtergrond worden ontkoppeld, en
het grootste deel van de modelcapaciteit aan de eerste wordt toegewezen, en ii)
Object-Centric 3D Token Merging, wat de kosten van cross-frame aandacht
vermindert door redundante tokens in onbelangrijke achtergrondregio's samen te
voegen. Beide technieken zijn direct toepasbaar op een gegeven
videobewerkingsmodel zonder hertraining, en kunnen de geheugen- en
rekenkosten ervan drastisch verminderen. We evalueren onze voorstellen op
inversiegebaseerde en controlesignaalgebaseerde bewerkingspijplijnen en tonen
een latentiereductie tot 10x bij een vergelijkbare synthesekwaliteit.
English
Diffusion-based video editing have reached impressive quality and can
transform either the global style, local structure, and attributes of given
video inputs, following textual edit prompts. However, such solutions typically
incur heavy memory and computational costs to generate temporally-coherent
frames, either in the form of diffusion inversion and/or cross-frame attention.
In this paper, we conduct an analysis of such inefficiencies, and suggest
simple yet effective modifications that allow significant speed-ups whilst
maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as
OCD, to further reduce latency by allocating computations more towards
foreground edited regions that are arguably more important for perceptual
quality. We achieve this by two novel proposals: i) Object-Centric Sampling,
decoupling the diffusion steps spent on salient regions or background,
allocating most of the model capacity to the former, and ii) Object-Centric 3D
Token Merging, which reduces cost of cross-frame attention by fusing redundant
tokens in unimportant background regions. Both techniques are readily
applicable to a given video editing model without retraining, and can
drastically reduce its memory and computational cost. We evaluate our proposals
on inversion-based and control-signal-based editing pipelines, and show a
latency reduction up to 10x for a comparable synthesis quality.