Difusión Centrada en Objetos para la Edición Eficiente de Videos
Object-Centric Diffusion for Efficient Video Editing
January 11, 2024
Autores: Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian
cs.AI
Resumen
La edición de videos basada en difusión ha alcanzado una calidad impresionante y puede transformar tanto el estilo global, la estructura local como los atributos de las entradas de video dadas, siguiendo indicaciones de edición textual. Sin embargo, tales soluciones suelen incurrir en costos elevados de memoria y computación para generar fotogramas temporalmente coherentes, ya sea en forma de inversión de difusión y/o atención entre fotogramas. En este artículo, realizamos un análisis de estas ineficiencias y sugerimos modificaciones simples pero efectivas que permiten aceleraciones significativas mientras se mantiene la calidad. Además, introducimos la Difusión Centrada en Objetos, denominada OCD, para reducir aún más la latencia al asignar cálculos principalmente hacia las regiones editadas en primer plano, que son argumentablemente más importantes para la calidad perceptual. Logramos esto mediante dos propuestas novedosas: i) Muestreo Centrado en Objetos, que desacopla los pasos de difusión dedicados a regiones destacadas o al fondo, asignando la mayor parte de la capacidad del modelo a las primeras, y ii) Fusión de Tokens 3D Centrada en Objetos, que reduce el costo de la atención entre fotogramas al fusionar tokens redundantes en regiones de fondo poco importantes. Ambas técnicas son aplicables directamente a un modelo de edición de video dado sin necesidad de reentrenamiento, y pueden reducir drásticamente su costo de memoria y computación. Evaluamos nuestras propuestas en flujos de trabajo de edición basados en inversión y en señales de control, y mostramos una reducción de latencia de hasta 10 veces para una calidad de síntesis comparable.
English
Diffusion-based video editing have reached impressive quality and can
transform either the global style, local structure, and attributes of given
video inputs, following textual edit prompts. However, such solutions typically
incur heavy memory and computational costs to generate temporally-coherent
frames, either in the form of diffusion inversion and/or cross-frame attention.
In this paper, we conduct an analysis of such inefficiencies, and suggest
simple yet effective modifications that allow significant speed-ups whilst
maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as
OCD, to further reduce latency by allocating computations more towards
foreground edited regions that are arguably more important for perceptual
quality. We achieve this by two novel proposals: i) Object-Centric Sampling,
decoupling the diffusion steps spent on salient regions or background,
allocating most of the model capacity to the former, and ii) Object-Centric 3D
Token Merging, which reduces cost of cross-frame attention by fusing redundant
tokens in unimportant background regions. Both techniques are readily
applicable to a given video editing model without retraining, and can
drastically reduce its memory and computational cost. We evaluate our proposals
on inversion-based and control-signal-based editing pipelines, and show a
latency reduction up to 10x for a comparable synthesis quality.