クリン・アバター2.0技術報告書
KlingAvatar 2.0 Technical Report
December 15, 2025
著者: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI
要旨
アバター動画生成モデルは近年目覚ましい進歩を遂げている。しかし、既存の研究では長時間の高解像度動画生成における効率性に限界があり、動画の長さが増すにつれて時間的なドリフト、品質劣化、プロンプト追従性の弱体化といった課題に直面している。これらの課題に対処するため、我々は空間解像度と時間次元の両方でアップスケーリングを行う時空間カスケードフレームワーク「KlingAvatar 2.0」を提案する。本フレームワークはまず、大域的な意味論と動きを捉えた低解像度の設計図的キーフレーム動画を生成し、その後、最初と最後のフレームを活用した戦略を用いて、それらを高解像度で時間的に一貫性のあるサブクリップに精緻化するとともに、長尺動画において滑らかな時間的遷移を保持する。長時間動画におけるクロスモーダルな指示の融合とアライメントを強化するため、3つのモダリティ特化型大規模言語モデル(LLM)エキスパートで構成される「共同推論ディレクター」を導入する。これらのエキスパートはモダリティの優先順位を推論し、背後にあるユーザーの意図を推定することで、マルチターン対話を通じて入力を詳細なストーリーラインに変換する。「否定ディレクター」は、否定プロンプトをさらに精緻化し、指示へのアライメントを改善する。これらのコンポーネントに基づき、フレームワークを拡張してID固有の複数キャラクター制御をサポートする。大規模な実験により、本モデルが、効率的でマルチモーダルにアライメントされた長尺高解像度動画生成の課題を効果的に解決し、視覚的な明瞭性の向上、正確なリップシンクを伴った現実的な唇と歯のレンダリング、強力なアイデンティティ保存、一貫したマルチモーダル指示の追従を実現することが実証された。
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.