Live2Diff: Перевод потокового видео с помощью однонаправленного внимания в моделях диффузии видео

Аннотация

Большие языковые модели продемонстрировали выдающуюся эффективность в генерации потоковых данных, таких как текст и аудио, благодаря своему временно однонаправленному механизму внимания, который моделирует корреляции между текущим токеном и предыдущими токенами. Однако видеопоток остается гораздо менее исследованным, несмотря на растущую потребность в обработке прямых видео. Современные модели диффузии видео используют двунаправленное временное внимание для моделирования корреляций между текущим кадром и всеми окружающими (включая будущие) кадрами, что мешает им обрабатывать потоковые видео. Для решения этой проблемы мы представляем Live2Diff, первую попытку разработки модели диффузии видео с однонаправленным временным вниманием, специально нацеленную на живой потоковый видеоперевод. По сравнению с предыдущими работами, наш подход обеспечивает временную согласованность и плавность, коррелируя текущий кадр с его предшественниками и несколькими начальными кадрами для разогрева, без учета будущих кадров. Кроме того, мы используем высокоэффективную схему подавления шума, включающую механизм KV-кэша и конвейеризацию, для облегчения потокового видеоперевода с интерактивными частотами кадров. Обширные эксперименты демонстрируют эффективность предложенного механизма внимания и конвейера, превосходя предыдущие методы по показателям временной плавности и/или эффективности.

English

Large Language Models have shown remarkable efficacy in generating streaming data such as text and audio, thanks to their temporally uni-directional attention mechanism, which models correlations between the current token and previous tokens. However, video streaming remains much less explored, despite a growing need for live video processing. State-of-the-art video diffusion models leverage bi-directional temporal attention to model the correlations between the current frame and all the surrounding (i.e. including future) frames, which hinders them from processing streaming videos. To address this problem, we present Live2Diff, the first attempt at designing a video diffusion model with uni-directional temporal attention, specifically targeting live streaming video translation. Compared to previous works, our approach ensures temporal consistency and smoothness by correlating the current frame with its predecessors and a few initial warmup frames, without any future frames. Additionally, we use a highly efficient denoising scheme featuring a KV-cache mechanism and pipelining, to facilitate streaming video translation at interactive framerates. Extensive experiments demonstrate the effectiveness of the proposed attention mechanism and pipeline, outperforming previous methods in terms of temporal smoothness and/or efficiency.

Live2Diff: Перевод потокового видео с помощью однонаправленного внимания в моделях диффузии видео

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

Аннотация

Support