Live2Diff:ビデオ拡散モデルにおける一方向性アテンションを用いたライブストリーム翻訳
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models
July 11, 2024
著者: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI
要旨
大規模言語モデルは、テキストや音声などのストリーミングデータ生成において顕著な効果を示してきました。これは、現在のトークンと過去のトークン間の相関をモデル化する時間的に一方向のアテンション機構によるものです。しかし、ライブ映像処理の需要が高まる中、映像ストリーミングはまだ十分に研究されていません。最先端の映像拡散モデルは、現在のフレームと周囲の(つまり未来を含む)フレーム間の相関をモデル化するために双方向の時間的アテンションを利用していますが、これがストリーミング映像の処理を妨げています。この問題を解決するため、我々はLive2Diffを提案します。これは、ライブストリーミング映像翻訳を特に対象とした、一方向の時間的アテンションを持つ映像拡散モデルを設計する初めての試みです。従来の研究と比較して、我々のアプローチは、未来のフレームを一切使用せず、現在のフレームをその前のフレームと少数の初期ウォームアップフレームと関連付けることで、時間的な一貫性と滑らかさを保証します。さらに、KVキャッシュ機構とパイプラインを特徴とする高効率なノイズ除去スキームを使用し、インタラクティブなフレームレートでのストリーミング映像翻訳を実現します。広範な実験により、提案されたアテンション機構とパイプラインの有効性が実証され、時間的な滑らかさや効率性の点で従来の手法を上回ることが示されました。
English
Large Language Models have shown remarkable efficacy in generating streaming
data such as text and audio, thanks to their temporally uni-directional
attention mechanism, which models correlations between the current token and
previous tokens. However, video streaming remains much less explored, despite a
growing need for live video processing. State-of-the-art video diffusion models
leverage bi-directional temporal attention to model the correlations between
the current frame and all the surrounding (i.e. including future) frames, which
hinders them from processing streaming videos. To address this problem, we
present Live2Diff, the first attempt at designing a video diffusion model with
uni-directional temporal attention, specifically targeting live streaming video
translation. Compared to previous works, our approach ensures temporal
consistency and smoothness by correlating the current frame with its
predecessors and a few initial warmup frames, without any future frames.
Additionally, we use a highly efficient denoising scheme featuring a KV-cache
mechanism and pipelining, to facilitate streaming video translation at
interactive framerates. Extensive experiments demonstrate the effectiveness of
the proposed attention mechanism and pipeline, outperforming previous methods
in terms of temporal smoothness and/or efficiency.Summary
AI-Generated Summary