ChatPaper.aiChatPaper

Live2Diff: Traduzione di Live Stream tramite Attenzione Uni-direzionale nei Modelli di Diffusione Video

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

July 11, 2024
Autori: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI

Abstract

I modelli linguistici di grandi dimensioni hanno dimostrato una notevole efficacia nella generazione di dati in streaming come testo e audio, grazie al loro meccanismo di attenzione temporale unidirezionale, che modella le correlazioni tra il token corrente e i token precedenti. Tuttavia, lo streaming video rimane molto meno esplorato, nonostante una crescente necessità di elaborazione video in tempo reale. I modelli di diffusione video all'avanguardia sfruttano l'attenzione temporale bidirezionale per modellare le correlazioni tra il frame corrente e tutti i frame circostanti (inclusi quelli futuri), il che impedisce loro di elaborare video in streaming. Per affrontare questo problema, presentiamo Live2Diff, il primo tentativo di progettare un modello di diffusione video con attenzione temporale unidirezionale, specificamente mirato alla traduzione di video in streaming live. Rispetto ai lavori precedenti, il nostro approccio garantisce coerenza e fluidità temporale correlando il frame corrente con i suoi predecessori e alcuni frame iniziali di riscaldamento, senza alcun frame futuro. Inoltre, utilizziamo uno schema di denoising altamente efficiente che include un meccanismo di cache KV e il pipelining, per facilitare la traduzione di video in streaming a frame rate interattivi. Esperimenti estensivi dimostrano l'efficacia del meccanismo di attenzione e della pipeline proposti, superando i metodi precedenti in termini di fluidità temporale e/o efficienza.
English
Large Language Models have shown remarkable efficacy in generating streaming data such as text and audio, thanks to their temporally uni-directional attention mechanism, which models correlations between the current token and previous tokens. However, video streaming remains much less explored, despite a growing need for live video processing. State-of-the-art video diffusion models leverage bi-directional temporal attention to model the correlations between the current frame and all the surrounding (i.e. including future) frames, which hinders them from processing streaming videos. To address this problem, we present Live2Diff, the first attempt at designing a video diffusion model with uni-directional temporal attention, specifically targeting live streaming video translation. Compared to previous works, our approach ensures temporal consistency and smoothness by correlating the current frame with its predecessors and a few initial warmup frames, without any future frames. Additionally, we use a highly efficient denoising scheme featuring a KV-cache mechanism and pipelining, to facilitate streaming video translation at interactive framerates. Extensive experiments demonstrate the effectiveness of the proposed attention mechanism and pipeline, outperforming previous methods in terms of temporal smoothness and/or efficiency.
PDF122November 28, 2024