Объектно-ориентированная диффузия для эффективного редактирования видео
Object-Centric Diffusion for Efficient Video Editing
January 11, 2024
Авторы: Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian
cs.AI
Аннотация
Методы редактирования видео на основе диффузии достигли впечатляющего качества и способны изменять как глобальный стиль, так и локальную структуру, а также атрибуты заданных видеовходов в соответствии с текстовыми запросами на редактирование. Однако такие решения обычно требуют значительных затрат памяти и вычислительных ресурсов для генерации временно-согласованных кадров, будь то в форме инверсии диффузии или кросс-кадрового внимания. В данной работе мы проводим анализ таких неэффективностей и предлагаем простые, но эффективные модификации, которые позволяют значительно ускорить процесс при сохранении качества. Более того, мы представляем Object-Centric Diffusion (OCD), подход, который дополнительно снижает задержку за счет распределения вычислений в большей степени на редактируемые области переднего плана, которые, как можно утверждать, более важны для воспринимаемого качества. Мы достигаем этого с помощью двух новых предложений: i) Object-Centric Sampling, который разделяет шаги диффузии, затрачиваемые на значимые области или фон, выделяя большую часть вычислительной мощности на первые, и ii) Object-Centric 3D Token Merging, который снижает затраты на кросс-кадровое внимание за счет объединения избыточных токенов в неважных областях фона. Оба метода легко применимы к существующим моделям редактирования видео без необходимости их переобучения и могут значительно снизить затраты памяти и вычислительных ресурсов. Мы оцениваем наши предложения на основе инверсионных и управляемых сигналами конвейеров редактирования и демонстрируем снижение задержки до 10 раз при сопоставимом качестве синтеза.
English
Diffusion-based video editing have reached impressive quality and can
transform either the global style, local structure, and attributes of given
video inputs, following textual edit prompts. However, such solutions typically
incur heavy memory and computational costs to generate temporally-coherent
frames, either in the form of diffusion inversion and/or cross-frame attention.
In this paper, we conduct an analysis of such inefficiencies, and suggest
simple yet effective modifications that allow significant speed-ups whilst
maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as
OCD, to further reduce latency by allocating computations more towards
foreground edited regions that are arguably more important for perceptual
quality. We achieve this by two novel proposals: i) Object-Centric Sampling,
decoupling the diffusion steps spent on salient regions or background,
allocating most of the model capacity to the former, and ii) Object-Centric 3D
Token Merging, which reduces cost of cross-frame attention by fusing redundant
tokens in unimportant background regions. Both techniques are readily
applicable to a given video editing model without retraining, and can
drastically reduce its memory and computational cost. We evaluate our proposals
on inversion-based and control-signal-based editing pipelines, and show a
latency reduction up to 10x for a comparable synthesis quality.