ChatPaper.aiChatPaper

LiveTalk: 改良された方策オン蒸留によるリアルタイムマルチモーダル対話型ビデオ拡散

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

December 29, 2025
著者: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
cs.AI

要旨

拡散モデルによるリアルタイム動画生成は、汎用マルチモーダル対話AIシステムの構築に不可欠である。しかし、拡散モデルにおける双方向注意機構を用いた全フレームの反復的同時ノイズ除去は、リアルタイム対話を妨げる。既存の蒸留手法はモデルを自己回帰化しサンプリングステップを削減することでこの問題を緩和できるが、主にテキストからの動画生成に焦点が当てられており、人間-AI間の対話は不自然で非効率なままである。本論文は、テキスト、画像、音声を含むマルチモーダル文脈を条件としたリアルタイム対話型動画拡散を実現し、この隔たりを埋めることを目指す。主導的な方策オン蒸留手法であるSelf Forcingがマルチモーダル条件付けにおいて(ちらつき、黒フレーム、品質劣化などの視覚的アーティファクトといった)課題に直面するという観察に基づき、条件入力の品質および方策オン最適化の初期化とスケジュールに重点を置いた改良された蒸留レシピを調査する。HDTF、AVSpeech、CelebV-HQを含むマルチモーダル条件付け(音声、画像、テキスト)アバター動画生成ベンチマークにおいて、我々の蒸留モデルは、推論コストとレイテンシを20分の1に削減しつつ、同等または大規模な双方向ベースラインの全ステップ品質に匹敵する視覚的品質を達成する。さらに、我々のモデルを音声言語モデルおよび長尺動画推論技術Anchor-Heavy Identity Sinksと統合し、リアルタイムマルチモーダル対話アバターシステムLiveTalkを構築する。厳選されたマルチターン対話ベンチマークにおけるシステムレベル評価では、LiveTalkが最新モデル(Sora2、Veo3)をマルチターン動画の一貫性とコンテンツ品質で上回り、応答レイテンシを1~2分からリアルタイム生成に短縮することで、シームレスな人間-AIマルチモーダル対話を実現することを示す。
English
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.
PDF501December 31, 2025