Live2Diff: Live-Stream-Übersetzung über unidirektionale Aufmerksamkeit in Video-Diffusionsmodellen
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
July 11, 2024
Autoren: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI
Zusammenfassung
Große Sprachmodelle haben eine bemerkenswerte Wirksamkeit bei der Generierung von Streaming-Daten wie Text und Audio gezeigt, dank ihres zeitlich unidirektionalen Aufmerksamkeitsmechanismus, der Korrelationen zwischen dem aktuellen Token und vorherigen Tokens modelliert. Allerdings ist das Video-Streaming trotz des wachsenden Bedarfs an der Echtzeit-Videobearbeitung noch weitgehend unerforscht. Modernste Videodiffusionsmodelle nutzen eine bidirektionale zeitliche Aufmerksamkeit, um die Korrelationen zwischen dem aktuellen Frame und allen umgebenden (einschließlich zukünftigen) Frames zu modellieren, was sie daran hindert, Streaming-Videos zu verarbeiten. Um dieses Problem zu lösen, präsentieren wir Live2Diff, den ersten Versuch, ein Videodiffusionsmodell mit unidirektionaler zeitlicher Aufmerksamkeit zu entwerfen, das speziell auf die Echtzeit-Übersetzung von Streaming-Videos abzielt. Im Vergleich zu früheren Arbeiten gewährleistet unser Ansatz zeitliche Konsistenz und Geschmeidigkeit, indem er den aktuellen Frame mit seinen Vorgängern und einigen anfänglichen Aufwärmframes in Beziehung setzt, ohne zukünftige Frames einzubeziehen. Darüber hinaus verwenden wir ein äußerst effizientes Rauschunterdrückungsschema mit einem KV-Cache-Mechanismus und Pipelining, um die Echtzeit-Übersetzung von Streaming-Videos bei interaktiven Bildraten zu erleichtern. Umfangreiche Experimente zeigen die Wirksamkeit des vorgeschlagenen Aufmerksamkeitsmechanismus und des Pipelines, die frühere Methoden hinsichtlich zeitlicher Geschmeidigkeit und/oder Effizienz übertreffen.
English
Large Language Models have shown remarkable efficacy in generating streaming
data such as text and audio, thanks to their temporally uni-directional
attention mechanism, which models correlations between the current token and
previous tokens. However, video streaming remains much less explored, despite a
growing need for live video processing. State-of-the-art video diffusion models
leverage bi-directional temporal attention to model the correlations between
the current frame and all the surrounding (i.e. including future) frames, which
hinders them from processing streaming videos. To address this problem, we
present Live2Diff, the first attempt at designing a video diffusion model with
uni-directional temporal attention, specifically targeting live streaming video
translation. Compared to previous works, our approach ensures temporal
consistency and smoothness by correlating the current frame with its
predecessors and a few initial warmup frames, without any future frames.
Additionally, we use a highly efficient denoising scheme featuring a KV-cache
mechanism and pipelining, to facilitate streaming video translation at
interactive framerates. Extensive experiments demonstrate the effectiveness of
the proposed attention mechanism and pipeline, outperforming previous methods
in terms of temporal smoothness and/or efficiency.Summary
AI-Generated Summary