ChatPaper.aiChatPaper

Rapporto Tecnico sul Controllo del Movimento Kling

Kling-MotionControl Technical Report

March 3, 2026
Autori: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang, Runze Zhao, Yuanxing Zhang, Yan Zhou
cs.AI

Abstract

L'animazione dei personaggi mira a generare video realistici trasferendo la dinamica del movimento da un video guida a un'immagine di riferimento. I recenti progressi nei modelli generativi hanno aperto la strada a un'animazione dei personaggi ad alta fedeltà. In questo lavoro, presentiamo Kling-MotionControl, un framework unificato basato su DiT, progettato specificamente per un'animazione olistica dei personaggi robusta, precisa ed espressiva. Sfruttando una strategia divide-et-impera all'interno di un sistema coerente, il modello orchestra rappresentazioni eterogenee del movimento, adattate alle caratteristiche distinte di corpo, viso e mani, riconciliando efficacemente la stabilità strutturale su larga scala con l'espressività articolatoria fine. Per garantire una generalizzazione robusta tra identità diverse, incorporiamo un apprendimento adattivo agnostico all'identità, facilitando il retargeting naturale del movimento per personaggi che spaziano da umani realistici a cartoni animati stilizzati. Allo stesso tempo, garantiamo una preservazione fedele dell'aspetto attraverso un'attenta progettazione di iniezione e fusione dell'identità, ulteriormente supportata da un meccanismo di libreria dei soggetti che sfrutta contesti di riferimento completi. Per garantire l'utilità pratica, implementiamo un framework avanzato di accelerazione che utilizza una distillazione multi-stadio, aumentando la velocità di inferenza di oltre 10 volte. Kling-MotionControl si distingue per la comprensione semantica intelligente del movimento e la precisa reattività al testo, consentendo un controllo flessibile che va oltre gli input visivi. Le valutazioni di preferenza umana dimostrano che Kling-MotionControl offre prestazioni superiori rispetto alle principali soluzioni commerciali e open-source, raggiungendo una fedeltà eccezionale nel controllo olistico del movimento, nella generalizzazione in domini aperti, e nella qualità e coerenza visiva. Questi risultati stabiliscono Kling-MotionControl come una soluzione robusta per un'animazione dei personaggi di alta qualità, controllabile e realistica.
English
Character animation aims to generate lifelike videos by transferring motion dynamics from a driving video to a reference image. Recent strides in generative models have paved the way for high-fidelity character animation. In this work, we present Kling-MotionControl, a unified DiT-based framework engineered specifically for robust, precise, and expressive holistic character animation. Leveraging a divide-and-conquer strategy within a cohesive system, the model orchestrates heterogeneous motion representations tailored to the distinct characteristics of body, face, and hands, effectively reconciling large-scale structural stability with fine-grained articulatory expressiveness. To ensure robust cross-identity generalization, we incorporate adaptive identity-agnostic learning, facilitating natural motion retargeting for diverse characters ranging from realistic humans to stylized cartoons. Simultaneously, we guarantee faithful appearance preservation through meticulous identity injection and fusion designs, further supported by a subject library mechanism that leverages comprehensive reference contexts. To ensure practical utility, we implement an advanced acceleration framework utilizing multi-stage distillation, boosting inference speed by over 10x. Kling-MotionControl distinguishes itself through intelligent semantic motion understanding and precise text responsiveness, allowing for flexible control beyond visual inputs. Human preference evaluations demonstrate that Kling-MotionControl delivers superior performance compared to leading commercial and open-source solutions, achieving exceptional fidelity in holistic motion control, open domain generalization, and visual quality and coherence. These results establish Kling-MotionControl as a robust solution for high-quality, controllable, and lifelike character animation.
PDF241March 7, 2026