Live2Diff: Live-Stream-Übersetzung über unidirektionale Aufmerksamkeit in Video-Diffusionsmodellen

papers.abstract

Große Sprachmodelle haben eine bemerkenswerte Wirksamkeit bei der Generierung von Streaming-Daten wie Text und Audio gezeigt, dank ihres zeitlich unidirektionalen Aufmerksamkeitsmechanismus, der Korrelationen zwischen dem aktuellen Token und vorherigen Tokens modelliert. Allerdings ist das Video-Streaming trotz des wachsenden Bedarfs an der Echtzeit-Videobearbeitung noch weitgehend unerforscht. Modernste Videodiffusionsmodelle nutzen eine bidirektionale zeitliche Aufmerksamkeit, um die Korrelationen zwischen dem aktuellen Frame und allen umgebenden (einschließlich zukünftigen) Frames zu modellieren, was sie daran hindert, Streaming-Videos zu verarbeiten. Um dieses Problem zu lösen, präsentieren wir Live2Diff, den ersten Versuch, ein Videodiffusionsmodell mit unidirektionaler zeitlicher Aufmerksamkeit zu entwerfen, das speziell auf die Echtzeit-Übersetzung von Streaming-Videos abzielt. Im Vergleich zu früheren Arbeiten gewährleistet unser Ansatz zeitliche Konsistenz und Geschmeidigkeit, indem er den aktuellen Frame mit seinen Vorgängern und einigen anfänglichen Aufwärmframes in Beziehung setzt, ohne zukünftige Frames einzubeziehen. Darüber hinaus verwenden wir ein äußerst effizientes Rauschunterdrückungsschema mit einem KV-Cache-Mechanismus und Pipelining, um die Echtzeit-Übersetzung von Streaming-Videos bei interaktiven Bildraten zu erleichtern. Umfangreiche Experimente zeigen die Wirksamkeit des vorgeschlagenen Aufmerksamkeitsmechanismus und des Pipelines, die frühere Methoden hinsichtlich zeitlicher Geschmeidigkeit und/oder Effizienz übertreffen.

English

Large Language Models have shown remarkable efficacy in generating streaming data such as text and audio, thanks to their temporally uni-directional attention mechanism, which models correlations between the current token and previous tokens. However, video streaming remains much less explored, despite a growing need for live video processing. State-of-the-art video diffusion models leverage bi-directional temporal attention to model the correlations between the current frame and all the surrounding (i.e. including future) frames, which hinders them from processing streaming videos. To address this problem, we present Live2Diff, the first attempt at designing a video diffusion model with uni-directional temporal attention, specifically targeting live streaming video translation. Compared to previous works, our approach ensures temporal consistency and smoothness by correlating the current frame with its predecessors and a few initial warmup frames, without any future frames. Additionally, we use a highly efficient denoising scheme featuring a KV-cache mechanism and pipelining, to facilitate streaming video translation at interactive framerates. Extensive experiments demonstrate the effectiveness of the proposed attention mechanism and pipeline, outperforming previous methods in terms of temporal smoothness and/or efficiency.

Live2Diff: Live-Stream-Übersetzung über unidirektionale Aufmerksamkeit in Video-Diffusionsmodellen

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

papers.abstract

Support