LiveTalk: Realietijd Multimodale Interactieve Videodiffusie via Verbeterde On-Policy Distillatie
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
December 29, 2025
Auteurs: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI
Samenvatting
Real-time videogeneratie via diffusie is essentieel voor het bouwen van algemene multimodale interactieve AI-systemen. De gelijktijdige denoisering van alle videoframes met bidirectionele aandacht via een iteratief proces in diffusiemodellen verhindert echter real-time interactie. Hoewel bestaande distillatiemethoden het model autoregressief kunnen maken en de samplingstappen kunnen verminderen om dit te verhelpen, richten ze zich voornamelijk op tekst-naar-videogeneratie, waardoor de mens-AI-interactie onnatuurlijk en minder efficiënt blijft. Dit artikel richt zich op real-time interactieve videodiffusie, geconditioneerd op een multimodale context (inclusief tekst, beeld en audio), om deze kloof te overbruggen. Gezien de observatie dat de toonaangevende on-policy distillatie-aanpak Self Forcing uitdagingen ondervindt (visuele artefacten zoals flikkering, zwarte frames en kwaliteitsvermindering) bij multimodale conditionering, onderzoeken we een verbeterd distillatierecept met nadruk op de kwaliteit van de conditioneringsinputs, evenals de initialisatie en planning voor de on-policy optimalisatie. Op benchmarks voor multimodaal-geconditioneerde (audio, beeld en tekst) avatar-videogeneratie, waaronder HDTF, AVSpeech en CelebV-HQ, evenaart ons gedistilleerde model de visuele kwaliteit van de volledige-stap, bidirectionele basismodellen van vergelijkbare of grotere omvang met 20x lagere inferentiekosten en latentie. Verder integreren we ons model met audio-taalmodellen en de lange-video-inferentietechniek Anchor-Heavy Identity Sinks om LiveTalk te bouwen, een real-time multimodaal interactief avatarsysteem. Systeemniveau-evaluatie op onze samengestelde multi-turn interactiebenchmark toont aan dat LiveTalk state-of-the-art modellen (Sora2, Veo3) overtreft in multi-turn videocoherentie en inhoudskwaliteit, terwijl de responstijd wordt teruggebracht van 1 à 2 minuten naar real-time generatie, waardoor naadloze mens-AI multimodale interactie mogelijk wordt.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.