LiveTalk : Diffusion vidéo interactive multimodale en temps réel via une distillation sur politique améliorée
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
December 29, 2025
papers.authors: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI
papers.abstract
La génération vidéo en temps réel par diffusion est essentielle pour construire des systèmes d'IA interactifs multimodaux généralistes. Cependant, le débruitage simultané de toutes les images vidéo via une attention bidirectionnelle dans un processus itératif, propre aux modèles de diffusion, empêche l'interaction en temps réel. Bien que les méthodes de distillation existantes puissent rendre le modèle autorégressif et réduire les étapes d'échantillonnage pour atténuer ce problème, elles se concentrent principalement sur la génération texte-à-vidéo, rendant l'interaction humain-IA peu naturelle et inefficace. Cet article vise une diffusion vidéo interactive en temps réel conditionnée par un contexte multimodal (texte, image et audio) pour combler cet écart. Partant du constat que l'approche de distillation *on-policy* leader, Self Forcing, rencontre des difficultés (artefacts visuels tels que scintillement, images noires et dégradation de la qualité) avec un conditionnement multimodal, nous étudions une recette de distillation améliorée mettant l'accent sur la qualité des entrées de conditionnement ainsi que sur l'initialisation et la planification de l'optimisation *on-policy*. Sur des benchmarks de génération vidéo d'avatar conditionnée multimodalement (audio, image et texte), incluant HDTF, AVSpeech et CelebV-HQ, notre modèle distillé atteint la qualité visuelle des modèles de référence bidirectionnels à nombre complet d'étapes, de taille similaire ou supérieure, avec un coût et une latence d'inférence 20 fois moindres. De plus, nous intégrons notre modèle avec des modèles de langage audio et la technique d'inférence vidéo long-forme *Anchor-Heavy Identity Sinks* pour construire LiveTalk, un système interactif multimodal d'avatar en temps réel. Une évaluation au niveau du système sur notre benchmark d'interaction multi-tours organisé montre que LiveTalk surpasse les modèles de l'état de l'art (Sora2, Veo3) en termes de cohérence vidéo multi-tours et de qualité de contenu, tout en réduisant la latence de réponse de 1-2 minutes à une génération en temps réel, permettant une interaction multimodale humain-IA fluide.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.