ChatPaper.aiChatPaper

Kling-Avatar: マルチモーダル指示を基盤としたカスケード型長時間アバターアニメーション合成

Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

September 11, 2025
著者: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI

要旨

オーディオ駆動型アバター動画生成の最近の進展により、視聴覚的なリアリズムが大幅に向上しています。しかし、既存の手法では、指示条件付けを単に音響的または視覚的な手がかりに基づく低レベルの追跡として扱っており、指示が伝えるコミュニケーション目的をモデル化していません。この制限により、物語の一貫性とキャラクターの表現力が損なわれています。このギャップを埋めるため、我々はKling-Avatarを提案します。これは、マルチモーダルな指示理解とフォトリアリスティックな肖像生成を統合した新しいカスケード型フレームワークです。我々のアプローチは2段階のパイプラインを採用しています。第1段階では、多様な指示信号に基づいてブループリント動画を生成するマルチモーダル大規模言語モデル(MLLM)ディレクターを設計し、キャラクターの動きや感情などの高レベルな意味論を制御します。第2段階では、ブループリントのキーフレームに基づいて、first-last frame戦略を用いて複数のサブクリップを並列生成します。このグローバルからローカルへのフレームワークは、細部の詳細を保持しながら、マルチモーダル指示の背後にある高レベルの意図を忠実にエンコードします。我々の並列アーキテクチャは、長時間動画の高速かつ安定した生成を可能にし、デジタルヒューマンのライブストリーミングやブログなどの実世界のアプリケーションに適しています。我々の手法を包括的に評価するため、多様な指示と挑戦的なシナリオをカバーする375の精選されたサンプルからなるベンチマークを構築しました。広範な実験により、Kling-Avatarが最大1080p、48fpsで鮮やかで滑らかな長時間動画を生成でき、リップシンクロ精度、感情と動的な表現力、指示制御性、アイデンティティ保持、クロスドメイン汎化において優れた性能を達成することが示されました。これらの結果により、Kling-Avatarは意味的に基づいた高忠実度のオーディオ駆動型アバター合成の新しいベンチマークとして確立されました。
English
Recent advances in audio-driven avatar video generation have significantly enhanced audio-visual realism. However, existing methods treat instruction conditioning merely as low-level tracking driven by acoustic or visual cues, without modeling the communicative purpose conveyed by the instructions. This limitation compromises their narrative coherence and character expressiveness. To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that unifies multimodal instruction understanding with photorealistic portrait generation. Our approach adopts a two-stage pipeline. In the first stage, we design a multimodal large language model (MLLM) director that produces a blueprint video conditioned on diverse instruction signals, thereby governing high-level semantics such as character motion and emotions. In the second stage, guided by blueprint keyframes, we generate multiple sub-clips in parallel using a first-last frame strategy. This global-to-local framework preserves fine-grained details while faithfully encoding the high-level intent behind multimodal instructions. Our parallel architecture also enables fast and stable generation of long-duration videos, making it suitable for real-world applications such as digital human livestreaming and vlogging. To comprehensively evaluate our method, we construct a benchmark of 375 curated samples covering diverse instructions and challenging scenarios. Extensive experiments demonstrate that Kling-Avatar is capable of generating vivid, fluent, long-duration videos at up to 1080p and 48 fps, achieving superior performance in lip synchronization accuracy, emotion and dynamic expressiveness, instruction controllability, identity preservation, and cross-domain generalization. These results establish Kling-Avatar as a new benchmark for semantically grounded, high-fidelity audio-driven avatar synthesis.
PDF342September 12, 2025