LiveTalk: Diffusione Video Interattiva Multimodale in Tempo Reale tramite Distillazione On-Policy Migliorata
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
December 29, 2025
Autori: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI
Abstract
La generazione di video in tempo reale tramite modelli di diffusione è essenziale per la costruzione di sistemi di IA interattivi multimodali e general-purpose. Tuttavia, la simultanea eliminazione del rumore su tutti i fotogrammi video mediante attenzione bidirezionale in un processo iterativo nei modelli di diffusione impedisce l'interazione in tempo reale. Sebbene i metodi di distillazione esistenti possano rendere il modello autoregressivo e ridurre i passi di campionamento per mitigare questo problema, essi si concentrano principalmente sulla generazione di video da testo, rendendo l'interazione uomo-IA innaturale e meno efficiente. Questo articolo si propone di realizzare una diffusione di video interattiva in tempo reale condizionata da un contesto multimodale, includendo testo, immagini e audio, per colmare questa lacuna. Data l'osservazione che l'approccio principale di distillazione on-policy, Self Forcing, incontra sfide (artefatti visivi come flickering, fotogrammi neri e degrado della qualità) con il condizionamento multimodale, investigiamo una ricetta di distillazione migliorata che enfatizza la qualità degli input di condizionamento, nonché l'inizializzazione e la schedulazione per l'ottimizzazione on-policy. Su benchmark per la generazione di video avatar condizionati multimodalmente (audio, immagine e testo), inclusi HDTF, AVSpeech e CelebV-HQ, il nostro modello distillato eguaglia la qualità visiva dei baseline bidirezionali a pieno numero di passi di dimensioni simili o maggiori, con un costo inferenziale e una latenza 20 volte inferiori. Inoltre, integriamo il nostro modello con modelli linguistici audio e la tecnica di inferenza video per contenuti lunghi Anchor-Heavy Identity Sinks per costruire LiveTalk, un sistema avatar interattivo multimodale in tempo reale. Una valutazione a livello di sistema sul nostro benchmark curato di interazione multi-turno mostra che LiveTalk supera i modelli all'avanguardia (Sora2, Veo3) in coerenza video multi-turno e qualità dei contenuti, riducendo al contempo la latenza di risposta da 1-2 minuti a una generazione in tempo reale, abilitando un'interazione multimodale uomo-IA senza soluzione di continuità.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.