ChatPaper.aiChatPaper

Kling-MotionControl 技術レポート

Kling-MotionControl Technical Report

March 3, 2026
著者: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang, Runze Zhao, Yuanxing Zhang, Yan Zhou
cs.AI

要旨

キャラクターアニメーションは、駆動ビデオから参照画像へ運動力学を転移させることで、生き生きとしたビデオを生成することを目的としています。近年の生成モデルの飛躍的進歩により、高精細なキャラクターアニメーションの実現が可能になってきました。本研究では、堅牢で精密かつ表現力豊かな全体的なキャラクターアニメーションを実現するために特別に設計された、統一されたDiTベースのフレームワーク「Kling-MotionControl」を提案します。モデルは、統合されたシステム内で分割統治戦略を活用し、身体、顔、手の特徴に合わせて調整された異種運動表現を協調させ、大規模な構造的安定性と微細な関節表現力を効果的に調和させます。堅牢なクロスアイデンティティ一般化を確保するため、適応的なアイデンティティ非依存学習を組み込み、写実的な人間からスタイライズされた漫画まで、多様なキャラクターに対する自然なモーションリターゲティングを可能にします。同時に、精密なアイデンティティ注入と融合設計を通じて忠実な外観保存を保証し、包括的な参照コンテキストを活用するサブジェクトライブラリメカニズムによってさらに支援します。実用性を確保するため、マルチステージ蒸留を利用した高度な高速化フレームワークを実装し、推論速度を10倍以上向上させます。Kling-MotionControlは、インテリジェントな意味的運動理解と精密なテキスト応答性により、視覚入力を超えた柔軟な制御を可能にし、既存手法と一線を画します。人間による嗜好性評価では、Kling-MotionControlが主要な商用およびオープンソースソリューションと比較して優れた性能を発揮し、全体的な運動制御、オープンドメイン一般化、視覚的品質と一貫性において卓越した忠実度を達成することが実証されています。これらの結果は、Kling-MotionControlが高品質で制御可能かつ生き生きとしたキャラクターアニメーションのための堅牢なソリューションであることを確立しています。
English
Character animation aims to generate lifelike videos by transferring motion dynamics from a driving video to a reference image. Recent strides in generative models have paved the way for high-fidelity character animation. In this work, we present Kling-MotionControl, a unified DiT-based framework engineered specifically for robust, precise, and expressive holistic character animation. Leveraging a divide-and-conquer strategy within a cohesive system, the model orchestrates heterogeneous motion representations tailored to the distinct characteristics of body, face, and hands, effectively reconciling large-scale structural stability with fine-grained articulatory expressiveness. To ensure robust cross-identity generalization, we incorporate adaptive identity-agnostic learning, facilitating natural motion retargeting for diverse characters ranging from realistic humans to stylized cartoons. Simultaneously, we guarantee faithful appearance preservation through meticulous identity injection and fusion designs, further supported by a subject library mechanism that leverages comprehensive reference contexts. To ensure practical utility, we implement an advanced acceleration framework utilizing multi-stage distillation, boosting inference speed by over 10x. Kling-MotionControl distinguishes itself through intelligent semantic motion understanding and precise text responsiveness, allowing for flexible control beyond visual inputs. Human preference evaluations demonstrate that Kling-MotionControl delivers superior performance compared to leading commercial and open-source solutions, achieving exceptional fidelity in holistic motion control, open domain generalization, and visual quality and coherence. These results establish Kling-MotionControl as a robust solution for high-quality, controllable, and lifelike character animation.
PDF261May 8, 2026