VidToMe: 제로샷 비디오 편집을 위한 비디오 토큰 병합
VidToMe: Video Token Merging for Zero-Shot Video Editing
December 17, 2023
저자: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI
초록
디퓨전 모델은 고품질 이미지 생성에서 상당한 진전을 이루었지만, 시간적 움직임의 복잡성으로 인해 비디오 생성에의 적용은 여전히 어려운 과제로 남아 있습니다. 제로샷 비디오 편집은 사전 훈련된 이미지 디퓨전 모델을 활용하여 소스 비디오를 새로운 비디오로 변환함으로써 이 문제에 대한 해결책을 제시합니다. 그러나 기존 방법들은 엄격한 시간적 일관성을 유지하고 효율적인 메모리 소비를 달성하는 데 어려움을 겪고 있습니다. 본 연구에서는 프레임 간의 자기 주의 토큰을 병합함으로써 생성된 비디오의 시간적 일관성을 향상시키는 새로운 접근 방식을 제안합니다. 프레임 간의 시간적으로 중복된 토큰을 정렬하고 압축함으로써, 우리의 방법은 시간적 일관성을 개선하고 자기 주의 계산에서의 메모리 소비를 줄입니다. 이 병합 전략은 프레임 간의 시간적 대응 관계에 따라 토큰을 매칭하고 정렬하여, 생성된 비디오 프레임에서 자연스러운 시간적 일관성을 촉진합니다. 비디오 처리의 복잡성을 관리하기 위해, 우리는 비디오를 청크로 나누고 청크 내부의 지역적 토큰 병합과 청크 간의 전역적 토큰 병합을 개발하여, 단기 비디오 연속성과 장기 콘텐츠 일관성을 모두 보장합니다. 우리의 비디오 편집 접근 방식은 이미지 편집의 발전을 비디오 편집으로 원활하게 확장하며, 최신 방법들에 비해 시간적 일관성에서 유리한 결과를 보여줍니다.
English
Diffusion models have made significant advances in generating high-quality
images, but their application to video generation has remained challenging due
to the complexity of temporal motion. Zero-shot video editing offers a solution
by utilizing pre-trained image diffusion models to translate source videos into
new ones. Nevertheless, existing methods struggle to maintain strict temporal
consistency and efficient memory consumption. In this work, we propose a novel
approach to enhance temporal consistency in generated videos by merging
self-attention tokens across frames. By aligning and compressing temporally
redundant tokens across frames, our method improves temporal coherence and
reduces memory consumption in self-attention computations. The merging strategy
matches and aligns tokens according to the temporal correspondence between
frames, facilitating natural temporal consistency in generated video frames. To
manage the complexity of video processing, we divide videos into chunks and
develop intra-chunk local token merging and inter-chunk global token merging,
ensuring both short-term video continuity and long-term content consistency.
Our video editing approach seamlessly extends the advancements in image editing
to video editing, rendering favorable results in temporal consistency over
state-of-the-art methods.