Live2Diff: Перевод потокового видео с помощью однонаправленного внимания в моделях диффузии видео
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
July 11, 2024
Авторы: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI
Аннотация
Большие языковые модели продемонстрировали выдающуюся эффективность в генерации потоковых данных, таких как текст и аудио, благодаря своему временно однонаправленному механизму внимания, который моделирует корреляции между текущим токеном и предыдущими токенами. Однако видеопоток остается гораздо менее исследованным, несмотря на растущую потребность в обработке прямых видео. Современные модели диффузии видео используют двунаправленное временное внимание для моделирования корреляций между текущим кадром и всеми окружающими (включая будущие) кадрами, что мешает им обрабатывать потоковые видео. Для решения этой проблемы мы представляем Live2Diff, первую попытку разработки модели диффузии видео с однонаправленным временным вниманием, специально нацеленную на живой потоковый видеоперевод. По сравнению с предыдущими работами, наш подход обеспечивает временную согласованность и плавность, коррелируя текущий кадр с его предшественниками и несколькими начальными кадрами для разогрева, без учета будущих кадров. Кроме того, мы используем высокоэффективную схему подавления шума, включающую механизм KV-кэша и конвейеризацию, для облегчения потокового видеоперевода с интерактивными частотами кадров. Обширные эксперименты демонстрируют эффективность предложенного механизма внимания и конвейера, превосходя предыдущие методы по показателям временной плавности и/или эффективности.
English
Large Language Models have shown remarkable efficacy in generating streaming
data such as text and audio, thanks to their temporally uni-directional
attention mechanism, which models correlations between the current token and
previous tokens. However, video streaming remains much less explored, despite a
growing need for live video processing. State-of-the-art video diffusion models
leverage bi-directional temporal attention to model the correlations between
the current frame and all the surrounding (i.e. including future) frames, which
hinders them from processing streaming videos. To address this problem, we
present Live2Diff, the first attempt at designing a video diffusion model with
uni-directional temporal attention, specifically targeting live streaming video
translation. Compared to previous works, our approach ensures temporal
consistency and smoothness by correlating the current frame with its
predecessors and a few initial warmup frames, without any future frames.
Additionally, we use a highly efficient denoising scheme featuring a KV-cache
mechanism and pipelining, to facilitate streaming video translation at
interactive framerates. Extensive experiments demonstrate the effectiveness of
the proposed attention mechanism and pipeline, outperforming previous methods
in terms of temporal smoothness and/or efficiency.Summary
AI-Generated Summary