Live2Diff: Live Stream Vertaling via Uni-directionele Aandacht in Video Diffusiemodellen
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
July 11, 2024
Auteurs: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI
Samenvatting
Grote Taalmodellen hebben opmerkelijke effectiviteit getoond in het genereren van streaming data zoals tekst en audio, dankzij hun tijdelijk eenrichtings-attentiemechanisme, dat correlaties modelleert tussen het huidige token en eerdere tokens. Video-streaming blijft echter veel minder onderzocht, ondanks een groeiende behoefte aan live videoverwerking. State-of-the-art videodiffusiemodellen maken gebruik van tweerichtings-temporele aandacht om de correlaties tussen het huidige frame en alle omringende (d.w.z. inclusief toekomstige) frames te modelleren, wat hen belemmert bij het verwerken van streaming video's. Om dit probleem aan te pakken, presenteren we Live2Diff, de eerste poging om een videodiffusiemodel te ontwerpen met eenrichtings-temporele aandacht, specifiek gericht op live streaming videotranslaties. In vergelijking met eerdere werken zorgt onze aanpak voor temporele consistentie en vloeiendheid door het huidige frame te correleren met zijn voorgangers en een paar initiële opwarmframes, zonder toekomstige frames. Daarnaast gebruiken we een zeer efficiënt denoisingschema met een KV-cachemechanisme en pipelining, om streaming videotranslaties mogelijk te maken bij interactieve framerates. Uitgebreide experimenten tonen de effectiviteit van het voorgestelde attentiemechanisme en de pipeline aan, waarbij eerdere methoden worden overtroffen op het gebied van temporele vloeiendheid en/of efficiëntie.
English
Large Language Models have shown remarkable efficacy in generating streaming
data such as text and audio, thanks to their temporally uni-directional
attention mechanism, which models correlations between the current token and
previous tokens. However, video streaming remains much less explored, despite a
growing need for live video processing. State-of-the-art video diffusion models
leverage bi-directional temporal attention to model the correlations between
the current frame and all the surrounding (i.e. including future) frames, which
hinders them from processing streaming videos. To address this problem, we
present Live2Diff, the first attempt at designing a video diffusion model with
uni-directional temporal attention, specifically targeting live streaming video
translation. Compared to previous works, our approach ensures temporal
consistency and smoothness by correlating the current frame with its
predecessors and a few initial warmup frames, without any future frames.
Additionally, we use a highly efficient denoising scheme featuring a KV-cache
mechanism and pipelining, to facilitate streaming video translation at
interactive framerates. Extensive experiments demonstrate the effectiveness of
the proposed attention mechanism and pipeline, outperforming previous methods
in terms of temporal smoothness and/or efficiency.