ChatPaper.aiChatPaper

Live2Diff: Traducción en tiempo real de transmisiones en vivo a través de Atención Uni-direccional en Modelos de Difusión de Video

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

July 11, 2024
Autores: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Tamaño han demostrado una notable eficacia en la generación de datos en tiempo real, como texto y audio, gracias a su mecanismo de atención temporal unidireccional, que modela las correlaciones entre el token actual y los tokens anteriores. Sin embargo, la transmisión de video sigue siendo mucho menos explorada, a pesar de la creciente necesidad de procesamiento de video en directo. Los modelos de difusión de video de última generación aprovechan la atención temporal bidireccional para modelar las correlaciones entre el fotograma actual y todos los fotogramas circundantes (es decir, incluyendo los futuros), lo que les impide procesar videos en tiempo real. Para abordar este problema, presentamos Live2Diff, el primer intento de diseñar un modelo de difusión de video con atención temporal unidireccional, dirigido específicamente a la traducción de video en directo. En comparación con trabajos anteriores, nuestro enfoque garantiza consistencia y suavidad temporal al correlacionar el fotograma actual con sus predecesores y algunos fotogramas iniciales de calentamiento, sin incluir fotogramas futuros. Además, utilizamos un esquema de reducción de ruido altamente eficiente que cuenta con un mecanismo de caché KV y el encolamiento, para facilitar la traducción de video en tiempo real a velocidades de fotogramas interactivas. Experimentos extensos demuestran la efectividad del mecanismo de atención propuesto y del encolamiento, superando a los métodos anteriores en cuanto a suavidad temporal y/o eficiencia.
English
Large Language Models have shown remarkable efficacy in generating streaming data such as text and audio, thanks to their temporally uni-directional attention mechanism, which models correlations between the current token and previous tokens. However, video streaming remains much less explored, despite a growing need for live video processing. State-of-the-art video diffusion models leverage bi-directional temporal attention to model the correlations between the current frame and all the surrounding (i.e. including future) frames, which hinders them from processing streaming videos. To address this problem, we present Live2Diff, the first attempt at designing a video diffusion model with uni-directional temporal attention, specifically targeting live streaming video translation. Compared to previous works, our approach ensures temporal consistency and smoothness by correlating the current frame with its predecessors and a few initial warmup frames, without any future frames. Additionally, we use a highly efficient denoising scheme featuring a KV-cache mechanism and pipelining, to facilitate streaming video translation at interactive framerates. Extensive experiments demonstrate the effectiveness of the proposed attention mechanism and pipeline, outperforming previous methods in terms of temporal smoothness and/or efficiency.

Summary

AI-Generated Summary

PDF122November 28, 2024