LiveTalk: Интерактивная мультимодальная диффузия видео в реальном времени с помощью улучшенного дистилляции на основе политики
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
December 29, 2025
Авторы: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI
Аннотация
Генерация видео в реальном времени с помощью диффузионных моделей является ключевой для создания универсальных многомодальных интерактивных систем ИИ. Однако одновременное шумоподавление всех кадров видео с помощью двунаправленного внимания в итеративном процессе диффузионных моделей препятствует интерактивности в реальном времени. Хотя существующие методы дистилляции позволяют сделать модель авторегрессионной и сократить шаги сэмплирования для смягчения этой проблемы, они в основном ориентированы на генерацию видео по тексту, что делает взаимодействие человека с ИИ неестественным и менее эффективным. Данная работа направлена на создание интерактивной диффузионной модели видео в реальном времени, обусловленной многомодальным контекстом (текст, изображение, аудио), чтобы устранить этот разрыв. Учитывая наблюдение, что ведущий подход он-политиковой дистилляции Self Forcing сталкивается с проблемами (визуальные артефакты, такие как мерцание, черные кадры и деградация качества) при многомодальном обусловливании, мы исследуем улучшенную методику дистилляции с акцентом на качество входных условий, а также на инициализацию и расписание он-политиковой оптимизации. На бенчмарках для многомодально-обусловленной (аудио, изображение, текст) генерации аватаров, включая HDTF, AVSpeech и CelebV-HQ, наша дистиллированная модель соответствует визуальному качеству полностпепных двунаправленных базовых моделей сравнимого или большего размера при 20-кратном снижении вычислительных затрат и задержки вывода. Кроме того, мы интегрируем нашу модель с аудио-языковыми моделями и техникой долгосрочного вывода видео Anchor-Heavy Identity Sinks для создания LiveTalk — системы интерактивных аватаров в реальном времени. Системная оценка на нашем специально созданном бенчмарке многораундового взаимодействия показывает, что LiveTalk превосходит современные модели (Sora2, Veo3) по согласованности видео и качеству контента в многораундовом сценарии, сокращая при этом задержку ответа с 1–2 минут до генерации в реальном времени, что обеспечивает беспрерывное многомодальное взаимодействие человека с ИИ.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.