Live2Diff: Tradução de Transmissão ao Vivo via Atenção Uni-direcional em Modelos de Difusão de Vídeo
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
July 11, 2024
Autores: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala têm demonstrado uma eficácia notável na geração de dados em tempo real, como texto e áudio, graças ao seu mecanismo de atenção temporal unidirecional, que modela as correlações entre o token atual e os tokens anteriores. No entanto, a transmissão de vídeo ainda é muito menos explorada, apesar da crescente necessidade de processamento de vídeo ao vivo. Os modelos de difusão de vídeo de última geração aproveitam a atenção temporal bidirecional para modelar as correlações entre o quadro atual e todos os quadros circundantes (ou seja, incluindo os futuros), o que os impede de processar vídeos em tempo real. Para abordar esse problema, apresentamos o Live2Diff, a primeira tentativa de projetar um modelo de difusão de vídeo com atenção temporal unidirecional, direcionado especificamente para a tradução de vídeos de transmissão ao vivo. Comparado aos trabalhos anteriores, nossa abordagem garante consistência e suavidade temporais correlacionando o quadro atual com seus predecessores e alguns quadros iniciais de aquecimento, sem incluir quaisquer quadros futuros. Além disso, utilizamos um esquema de remoção de ruído altamente eficiente com um mecanismo de cache KV e pipeline, para facilitar a tradução de vídeos de transmissão em taxas de quadros interativas. Experimentos extensivos demonstram a eficácia do mecanismo de atenção e do pipeline propostos, superando os métodos anteriores em termos de suavidade temporal e/ou eficiência.
English
Large Language Models have shown remarkable efficacy in generating streaming
data such as text and audio, thanks to their temporally uni-directional
attention mechanism, which models correlations between the current token and
previous tokens. However, video streaming remains much less explored, despite a
growing need for live video processing. State-of-the-art video diffusion models
leverage bi-directional temporal attention to model the correlations between
the current frame and all the surrounding (i.e. including future) frames, which
hinders them from processing streaming videos. To address this problem, we
present Live2Diff, the first attempt at designing a video diffusion model with
uni-directional temporal attention, specifically targeting live streaming video
translation. Compared to previous works, our approach ensures temporal
consistency and smoothness by correlating the current frame with its
predecessors and a few initial warmup frames, without any future frames.
Additionally, we use a highly efficient denoising scheme featuring a KV-cache
mechanism and pipelining, to facilitate streaming video translation at
interactive framerates. Extensive experiments demonstrate the effectiveness of
the proposed attention mechanism and pipeline, outperforming previous methods
in terms of temporal smoothness and/or efficiency.