ChatPaper.aiChatPaper

Live2Diff : Traduction de flux vidéo en direct via une attention unidirectionnelle dans les modèles de diffusion vidéo

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

July 11, 2024
Auteurs: Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen
cs.AI

Résumé

Les modèles de langage à grande échelle ont démontré une efficacité remarquable dans la génération de données en flux continu, telles que le texte et l'audio, grâce à leur mécanisme d'attention temporelle unidirectionnelle, qui modélise les corrélations entre le token actuel et les tokens précédents. Cependant, le streaming vidéo reste beaucoup moins exploré, malgré un besoin croissant de traitement vidéo en direct. Les modèles de diffusion vidéo de pointe exploitent une attention temporelle bidirectionnelle pour modéliser les corrélations entre l'image actuelle et toutes les images environnantes (y compris les images futures), ce qui les empêche de traiter des vidéos en flux continu. Pour résoudre ce problème, nous présentons Live2Diff, la première tentative de conception d'un modèle de diffusion vidéo avec une attention temporelle unidirectionnelle, spécifiquement ciblée pour la traduction de vidéos en direct. Par rapport aux travaux précédents, notre approche garantit une cohérence et une fluidité temporelles en corrélant l'image actuelle avec ses prédécesseurs et quelques images d'échauffement initiales, sans aucune image future. De plus, nous utilisons un schéma de débruitage hautement efficace, doté d'un mécanisme de cache KV et de pipelining, pour faciliter la traduction de vidéos en flux continu à des fréquences d'images interactives. Des expériences approfondies démontrent l'efficacité du mécanisme d'attention et du pipeline proposés, surpassant les méthodes précédentes en termes de fluidité temporelle et/ou d'efficacité.
English
Large Language Models have shown remarkable efficacy in generating streaming data such as text and audio, thanks to their temporally uni-directional attention mechanism, which models correlations between the current token and previous tokens. However, video streaming remains much less explored, despite a growing need for live video processing. State-of-the-art video diffusion models leverage bi-directional temporal attention to model the correlations between the current frame and all the surrounding (i.e. including future) frames, which hinders them from processing streaming videos. To address this problem, we present Live2Diff, the first attempt at designing a video diffusion model with uni-directional temporal attention, specifically targeting live streaming video translation. Compared to previous works, our approach ensures temporal consistency and smoothness by correlating the current frame with its predecessors and a few initial warmup frames, without any future frames. Additionally, we use a highly efficient denoising scheme featuring a KV-cache mechanism and pipelining, to facilitate streaming video translation at interactive framerates. Extensive experiments demonstrate the effectiveness of the proposed attention mechanism and pipeline, outperforming previous methods in terms of temporal smoothness and/or efficiency.

Summary

AI-Generated Summary

PDF122November 28, 2024