Live2Diff: 비디오 확산 모델에서 단방향 주의 메커니즘을 통한 라이브 스트림 변환
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
July 11, 2024
저자: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI
초록
대규모 언어 모델(Large Language Models)은 텍스트와 오디오와 같은 스트리밍 데이터를 생성하는 데 있어 놀라운 효율성을 보여주었는데, 이는 현재 토큰과 이전 토큰 간의 상관관계를 모델링하는 시간적 단방향 어텐션 메커니즘 덕분입니다. 그러나 실시간 비디오 처리에 대한 필요성이 증가함에도 불구하고, 비디오 스트리밍은 여전히 많이 탐구되지 않은 분야로 남아 있습니다. 최첨단 비디오 확산 모델(video diffusion models)은 현재 프레임과 주변(즉, 미래 프레임을 포함한) 모든 프레임 간의 상관관계를 모델링하기 위해 양방향 시간적 어텐션을 활용하는데, 이는 스트리밍 비디오 처리를 방해합니다. 이 문제를 해결하기 위해, 우리는 실시간 스트리밍 비디오 변환을 목표로 하는 단방향 시간적 어텐션을 갖춘 비디오 확산 모델을 설계한 최초의 시도인 Live2Diff를 제안합니다. 기존 연구와 비교하여, 우리의 접근 방식은 미래 프레임 없이 현재 프레임과 그 전 프레임 및 몇 개의 초기 워밍업 프레임 간의 상관관계를 설정함으로써 시간적 일관성과 부드러움을 보장합니다. 또한, 우리는 KV 캐시 메커니즘과 파이프라이닝을 특징으로 하는 고효율 디노이징 기법을 사용하여 인터랙티브 프레임 속도에서 스트리밍 비디오 변환을 용이하게 합니다. 광범위한 실험을 통해 제안된 어텐션 메커니즘과 파이프라인의 효과가 입증되었으며, 시간적 부드러움과/또는 효율성 측면에서 기존 방법들을 능가하는 성능을 보여줍니다.
English
Large Language Models have shown remarkable efficacy in generating streaming
data such as text and audio, thanks to their temporally uni-directional
attention mechanism, which models correlations between the current token and
previous tokens. However, video streaming remains much less explored, despite a
growing need for live video processing. State-of-the-art video diffusion models
leverage bi-directional temporal attention to model the correlations between
the current frame and all the surrounding (i.e. including future) frames, which
hinders them from processing streaming videos. To address this problem, we
present Live2Diff, the first attempt at designing a video diffusion model with
uni-directional temporal attention, specifically targeting live streaming video
translation. Compared to previous works, our approach ensures temporal
consistency and smoothness by correlating the current frame with its
predecessors and a few initial warmup frames, without any future frames.
Additionally, we use a highly efficient denoising scheme featuring a KV-cache
mechanism and pipelining, to facilitate streaming video translation at
interactive framerates. Extensive experiments demonstrate the effectiveness of
the proposed attention mechanism and pipeline, outperforming previous methods
in terms of temporal smoothness and/or efficiency.Summary
AI-Generated Summary