ChatPaper.aiChatPaper

효율적인 비디오 편집을 위한 객체 중심 확산 모델

Object-Centric Diffusion for Efficient Video Editing

January 11, 2024
저자: Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian
cs.AI

초록

확산 기반 비디오 편집은 인상적인 품질에 도달했으며, 텍스트 편집 프롬프트에 따라 주어진 비디오 입력의 전역 스타일, 지역 구조 및 속성을 변환할 수 있습니다. 그러나 이러한 솔루션은 일반적으로 시간적으로 일관된 프레임을 생성하기 위해 확산 역전파 및/또는 프레임 간 주의 메커니즘의 형태로 많은 메모리와 계산 비용을 발생시킵니다. 본 논문에서는 이러한 비효율성을 분석하고, 품질을 유지하면서도 상당한 속도 향상을 가능하게 하는 간단하지만 효과적인 수정 사항을 제안합니다. 더 나아가, 우리는 Object-Centric Diffusion(OCD)을 도입하여 지연 시간을 더욱 줄이기 위해 시각적 품질에 있어 더 중요한 전경 편집 영역에 계산을 더 집중시킵니다. 이를 위해 두 가지 새로운 제안을 합니다: i) Object-Centric Sampling은 주요 영역과 배경에 소요되는 확산 단계를 분리하여 모델의 대부분의 용량을 전자에 할당하고, ii) Object-Centric 3D Token Merging은 중요하지 않은 배경 영역에서 중복 토큰을 융합하여 프레임 간 주의 메커니즘의 비용을 줄입니다. 두 기술 모두 재학습 없이 주어진 비디오 편집 모델에 바로 적용할 수 있으며, 메모리와 계산 비용을 크게 줄일 수 있습니다. 우리는 역전파 기반 및 제어 신호 기반 편집 파이프라인에서 제안 사항을 평가하고, 유사한 합성 품질을 유지하면서 최대 10배의 지연 시간 감소를 보여줍니다.
English
Diffusion-based video editing have reached impressive quality and can transform either the global style, local structure, and attributes of given video inputs, following textual edit prompts. However, such solutions typically incur heavy memory and computational costs to generate temporally-coherent frames, either in the form of diffusion inversion and/or cross-frame attention. In this paper, we conduct an analysis of such inefficiencies, and suggest simple yet effective modifications that allow significant speed-ups whilst maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as OCD, to further reduce latency by allocating computations more towards foreground edited regions that are arguably more important for perceptual quality. We achieve this by two novel proposals: i) Object-Centric Sampling, decoupling the diffusion steps spent on salient regions or background, allocating most of the model capacity to the former, and ii) Object-Centric 3D Token Merging, which reduces cost of cross-frame attention by fusing redundant tokens in unimportant background regions. Both techniques are readily applicable to a given video editing model without retraining, and can drastically reduce its memory and computational cost. We evaluate our proposals on inversion-based and control-signal-based editing pipelines, and show a latency reduction up to 10x for a comparable synthesis quality.
PDF110December 15, 2024