라이브톡: 개선된 온-폴리시 디스틸레이션을 통한 실시간 멀티모달 인터랙티브 비디오 확산
LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
December 29, 2025
저자: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI
초록
확산 모델을 통한 실시간 비디오 생성은 범용 멀티모달 상호작용 AI 시스템 구축에 필수적입니다. 그러나 확산 모델에서 반복적 과정을 통한 양방향 어텐션으로 모든 비디오 프레임을 동시에 노이즈 제거하는 방식은 실시간 상호작용을 방해합니다. 기존 지식 증류 방법은 모델을 자율회귀적으로 만들고 샘플링 단계를 줄여 이 문제를 완화할 수 있지만, 주로 텍스트-비디오 생성에 집중하여 인간-AI 상호작용을 부자연스럽고 비효율적으로 만듭니다. 본 논문은 이러한 격차를 해소하기 위해 텍스트, 이미지, 오디오를 포함한 멀티모달 컨텍스트에 조건화된 실시간 상호작용 비디오 확산을 목표로 합니다. 선도적인 온-폴리시 지식 증류 접근법인 Self Forcing이 멀티모달 조건화에서 깜빡임, 검은 화면, 화질 저하와 같은 시각적 결함과 같은 문제에 직면한다는 관찰을 바탕으로, 우리는 조건 입력의 품질과 온-폴리시 최적화를 위한 초기화 및 스케줄링에 중점을 둔 개선된 증류 방법을 연구합니다. HDTF, AVSpeech, CelebV-HQ를 포함한 멀티모달 조건(오디오, 이미지, 텍스트) 아바타 비디오 생성 벤치마크에서, 우리의 증류 모델은 추론 비용과 지연 시간을 20배 절감하면서 유사하거나 더 큰 규모의 전체 단계 양방향 기준 모델들의 시각적 품질에 필적하는 성능을 보입니다. 더 나아가, 우리는 이 모델을 오디오 언어 모델 및 장편 비디오 추론 기술인 Anchor-Heavy Identity Sinks와 통합하여 실시간 멀티모달 상호작용 아바타 시스템인 LiveTalk를 구축했습니다. 우리가 직접 구성한 다중 턴 상호작용 벤치마크에 대한 시스템 수준 평가 결과, LiveTalk는 최첨단 모델(Sora2, Veo3)보다 다중 턴 비디오 일관성과 콘텐츠 품질에서 우수한 성능을 보였으며, 응답 지연 시간을 1~2분에서 실시간 생성으로 단축하여 원활한 인간-AI 멀티모달 상호작용을 가능하게 합니다.
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.