ChatPaper.aiChatPaper

Rapport Technique Kling-MotionControl

Kling-MotionControl Technical Report

March 3, 2026
Auteurs: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang, Runze Zhao, Yuanxing Zhang, Yan Zhou
cs.AI

Résumé

L'animation de personnages vise à générer des vidéos réalistes en transférant la dynamique du mouvement d'une vidéo pilote vers une image de référence. Les progrès récents des modèles génératifs ont ouvert la voie à une animation de personnages de haute fidélité. Dans ce travail, nous présentons Kling-MotionControl, un framework unifié basé sur DiT, conçu spécifiquement pour une animation de personnage holistique robuste, précise et expressive. Tirant parti d'une stratégie de division pour mieux régner au sein d'un système cohérent, le modèle orchestre des représentations de mouvement hétérogènes adaptées aux caractéristiques distinctes du corps, du visage et des mains, conciliant efficacement la stabilité structurelle à grande échelle avec l'expressivité articulatoire fine. Pour assurer une généralisation robuste trans-identité, nous intégrons un apprentissage adaptatif indépendant de l'identité, facilitant le retargeting naturel du mouvement pour divers personnages, allant des humains réalistes aux dessins animés stylisés. Simultanément, nous garantissons une préservation fidèle de l'apparence grâce à des designs méticuleux d'injection et de fusion d'identité, soutenus en outre par un mécanisme de bibliothèque de sujets qui exploite des contextes de référence complets. Pour assurer l'utilité pratique, nous mettons en œuvre un framework d'accélération avancé utilisant une distillation multi-étapes, augmentant la vitesse d'inférence de plus de 10 fois. Kling-MotionControl se distingue par sa compréhension sémantique intelligente du mouvement et sa réactivité précise au texte, permettant un contrôle flexible au-delà des entrées visuelles. Les évaluations par préférence humaine démontrent que Kling-MotionControl offre des performances supérieures aux solutions commerciales et open-source leaders, atteignant une fidélité exceptionnelle dans le contrôle holistique du mouvement, la généralisation en domaine ouvert, ainsi que la qualité visuelle et la cohérence. Ces résultats établissent Kling-MotionControl comme une solution robuste pour une animation de personnage de haute qualité, contrôlable et réaliste.
English
Character animation aims to generate lifelike videos by transferring motion dynamics from a driving video to a reference image. Recent strides in generative models have paved the way for high-fidelity character animation. In this work, we present Kling-MotionControl, a unified DiT-based framework engineered specifically for robust, precise, and expressive holistic character animation. Leveraging a divide-and-conquer strategy within a cohesive system, the model orchestrates heterogeneous motion representations tailored to the distinct characteristics of body, face, and hands, effectively reconciling large-scale structural stability with fine-grained articulatory expressiveness. To ensure robust cross-identity generalization, we incorporate adaptive identity-agnostic learning, facilitating natural motion retargeting for diverse characters ranging from realistic humans to stylized cartoons. Simultaneously, we guarantee faithful appearance preservation through meticulous identity injection and fusion designs, further supported by a subject library mechanism that leverages comprehensive reference contexts. To ensure practical utility, we implement an advanced acceleration framework utilizing multi-stage distillation, boosting inference speed by over 10x. Kling-MotionControl distinguishes itself through intelligent semantic motion understanding and precise text responsiveness, allowing for flexible control beyond visual inputs. Human preference evaluations demonstrate that Kling-MotionControl delivers superior performance compared to leading commercial and open-source solutions, achieving exceptional fidelity in holistic motion control, open domain generalization, and visual quality and coherence. These results establish Kling-MotionControl as a robust solution for high-quality, controllable, and lifelike character animation.
PDF261May 8, 2026