LiveTalk: Difusão de Vídeo Interativa Multimodal em Tempo Real via Destilação On-Policy Aprimorada
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
December 29, 2025
Autores: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI
Resumo
A geração de vídeo em tempo real via difusão é essencial para a construção de sistemas de IA interativos multimodais de propósito geral. No entanto, a desruídos simultânea de todos os fotogramas de vídeo com atenção bidirecional através de um processo iterativo nos modelos de difusão impede a interação em tempo real. Embora os métodos de destilação existentes possam tornar o modelo autoregressivo e reduzir as etapas de amostragem para mitigar isso, eles focam principalmente na geração de texto para vídeo, deixando a interação humano-IA artificial e menos eficiente. Este artigo tem como objetivo a difusão de vídeo interativa em tempo real condicionada a um contexto multimodal, incluindo texto, imagem e áudio, para preencher esta lacuna. Dada a observação de que a principal abordagem de destilação *on-policy*, Self Forcing, enfrenta desafios (artefatos visuais como cintilação, frames pretos e degradação de qualidade) com condicionamento multimodal, investigamos uma receita de destilação aprimorada com ênfase na qualidade dos inputs de condição, bem como na inicialização e no cronograma para a otimização *on-policy*. Em benchmarks para geração de vídeo de avatar condicionada multimodalmente (áudio, imagem e texto), incluindo HDTF, AVSpeech e CelebV-HQ, nosso modelo destilado iguala a qualidade visual das linhas de base bidirecionais de tamanho similar ou maior com custo e latência de inferência 20 vezes menores. Além disso, integramos nosso modelo com modelos de linguagem de áudio e a técnica de inferência de vídeo de longa duração *Anchor-Heavy Identity Sinks* para construir o LiveTalk, um sistema de avatar interativo multimodal em tempo real. A avaliação a nível de sistema no nosso benchmark curado de interação multi-turno mostra que o LiveTalk supera os modelos state-of-the-art (Sora2, Veo3) em coerência de vídeo multi-turno e qualidade de conteúdo, enquanto reduz a latência de resposta de 1-2 minutos para uma geração em tempo real, permitindo uma interação multimodal humano-IA contínua.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.