LiveTalk: Echtzeit-Multimodale Interaktive Videodiffusion mittels verbesserter On-Policy-Distillation
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
December 29, 2025
papers.authors: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI
papers.abstract
Die Echtzeit-Videogenerierung mittels Diffusion ist entscheidend für die Entwicklung allgemeiner multimodaler interaktiver KI-Systeme. Allerdings verhindert die simultane Denoisierung aller Videobilder durch bidirektionale Attention in einem iterativen Prozess bei Diffusionsmodellen eine Echtzeit-Interaktion. Bestehende Distillationsmethoden können das Modell zwar autoregressiv machen und die Abtastschritte reduzieren, konzentrieren sich jedoch primär auf Text-zu-Video-Generierung, was die Mensch-KI-Interaktion unnatürlich und ineffizient gestaltet. Diese Arbeit zielt auf eine echtzeitfähige interaktive Videodiffusion ab, die auf einen multimodalen Kontext (Text, Bild und Audio) konditioniert ist, um diese Lücke zu schließen. Angesichts der Beobachtung, dass der führende On-Policy-Distillationsansatz Self Forcing bei multimodaler Konditionierung Schwierigkeiten aufweist (visuelle Artefakte wie Flackern, schwarze Bilder und Qualitätsverlust), untersuchen wir ein verbessertes Distillationsverfahren mit Schwerpunkt auf der Qualität der Konditionierungseingaben sowie der Initialisierung und Planung der On-Policy-Optimierung. In Benchmarks für multimodal konditionierte (Audio, Bild und Text) Avatar-Videogenerierung – einschließlich HDTF, AVSpeech und CelebV-HQ – erreicht unser distilliertes Modell die visuelle Qualität der Vollschritt-basierten bidirektionalen Baseline-Modelle ähnlicher oder größerer Größe bei 20-fach geringeren Inferenzkosten und Latenzzeiten. Darüber hinaus integrieren wir unser Modell mit Audio-Sprachmodellen und der Long-Form-Video-Inferenztechnik Anchor-Heavy Identity Sinks, um LiveTalk zu entwickeln – ein echtzeitfähiges multimodales interaktives Avatar-System. Eine systemweite Evaluation auf unserem kuratierten Multi-Turn-Interaktionsbenchmark zeigt, dass LiveTalk state-of-the-art-Modelle (Sora2, Veo3) in Bezug auf Multi-Turn-Videokohärenz und Inhaltsqualität übertrifft, während die Antwortlatenz von 1–2 Minuten auf Echtzeitgenerierung reduziert wird, was eine nahtlose multimodale Mensch-KI-Interaktion ermöglicht.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.