ChatPaper.aiChatPaper

LiveTalk: Difusión de Video Interactivo Multimodal en Tiempo Real mediante Destilación en Política Mejorada

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

December 29, 2025
Autores: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI

Resumen

La generación de vídeo en tiempo real mediante difusión es esencial para construir sistemas de IA interactivos multimodales de propósito general. Sin embargo, la eliminación simultánea de ruido en todos los fotogramas del vídeo mediante atención bidireccional a través de un proceso iterativo en los modelos de difusión impide la interacción en tiempo real. Aunque los métodos de destilación existentes pueden hacer que el modelo sea autorregresivo y reducir los pasos de muestreo para mitigar esto, se centran principalmente en la generación de texto a vídeo, dejando la interacción humano-IA poco natural e ineficiente. Este artículo se enfoca en la difusión de vídeo interactiva en tiempo real condicionada por un contexto multimodal, que incluye texto, imagen y audio, para cerrar esta brecha. Dada la observación de que el principal enfoque de destilación on-policy, Self Forcing, encuentra desafíos (artefactos visuales como parpadeo, fotogramas negros y degradación de calidad) con el condicionamiento multimodal, investigamos una receta de destilación mejorada con énfasis en la calidad de las entradas de condición, así como en la inicialización y programación para la optimización on-policy. En benchmarks de generación de vídeo de avatar condicionada multimodalmente (audio, imagen y texto), incluyendo HDTF, AVSpeech y CelebV-HQ, nuestro modelo destilado iguala la calidad visual de las líneas base bidireccionales de tamaño similar o mayor con un coste de inferencia y latencia 20 veces menor. Además, integramos nuestro modelo con modelos de lenguaje de audio y la técnica de inferencia de vídeo de larga duración Anchor-Heavy Identity Sinks para construir LiveTalk, un sistema de avatar interactivo multimodal en tiempo real. La evaluación a nivel de sistema en nuestro benchmark de interacción multiturno curado muestra que LiveTalk supera a los modelos más avanzados (Sora2, Veo3) en coherencia de vídeo multiturno y calidad de contenido, mientras reduce la latencia de respuesta de 1-2 minutos a una generación en tiempo real, permitiendo una interacción multimodal humano-IA fluida.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.
PDF501December 31, 2025