Diffusion centrée sur les objets pour l'édition efficace de vidéos
Object-Centric Diffusion for Efficient Video Editing
January 11, 2024
Auteurs: Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian
cs.AI
Résumé
L'édition vidéo basée sur la diffusion a atteint une qualité impressionnante et peut transformer soit le style global, la structure locale, ou les attributs de vidéos données, en suivant des instructions textuelles d'édition. Cependant, ces solutions entraînent généralement des coûts élevés en mémoire et en calcul pour générer des images cohérentes dans le temps, que ce soit sous la forme d'inversion de diffusion et/ou d'attention inter-images. Dans cet article, nous analysons ces inefficacités et proposons des modifications simples mais efficaces permettant des accélérations significatives tout en maintenant la qualité. De plus, nous introduisons la Diffusion Centrée sur les Objets, appelée OCD, pour réduire davantage la latence en allouant les calculs principalement aux régions éditées de premier plan, qui sont sans doute plus importantes pour la qualité perceptuelle. Nous y parvenons grâce à deux propositions novatrices : i) l'Échantillonnage Centré sur les Objets, qui découple les étapes de diffusion consacrées aux régions saillantes ou à l'arrière-plan, en allouant la majeure partie de la capacité du modèle aux premières, et ii) la Fusion de Tokens 3D Centrée sur les Objets, qui réduit le coût de l'attention inter-images en fusionnant les tokens redondants dans les régions d'arrière-plan peu importantes. Ces deux techniques sont directement applicables à un modèle d'édition vidéo existant sans nécessiter de réentraînement, et peuvent réduire considérablement ses coûts en mémoire et en calcul. Nous évaluons nos propositions sur des pipelines d'édition basés sur l'inversion et sur des signaux de contrôle, et montrons une réduction de latence allant jusqu'à 10x pour une qualité de synthèse comparable.
English
Diffusion-based video editing have reached impressive quality and can
transform either the global style, local structure, and attributes of given
video inputs, following textual edit prompts. However, such solutions typically
incur heavy memory and computational costs to generate temporally-coherent
frames, either in the form of diffusion inversion and/or cross-frame attention.
In this paper, we conduct an analysis of such inefficiencies, and suggest
simple yet effective modifications that allow significant speed-ups whilst
maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as
OCD, to further reduce latency by allocating computations more towards
foreground edited regions that are arguably more important for perceptual
quality. We achieve this by two novel proposals: i) Object-Centric Sampling,
decoupling the diffusion steps spent on salient regions or background,
allocating most of the model capacity to the former, and ii) Object-Centric 3D
Token Merging, which reduces cost of cross-frame attention by fusing redundant
tokens in unimportant background regions. Both techniques are readily
applicable to a given video editing model without retraining, and can
drastically reduce its memory and computational cost. We evaluate our proposals
on inversion-based and control-signal-based editing pipelines, and show a
latency reduction up to 10x for a comparable synthesis quality.