클링-모션컨트롤 기술 보고서
Kling-MotionControl Technical Report
March 3, 2026
저자: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang, Runze Zhao, Yuanxing Zhang, Yan Zhou
cs.AI
초록
캐릭터 애니메이션은 구동 동영상의 운동 역학을 참조 이미지에 전달하여 생생한 비디오를 생성하는 것을 목표로 합니다. 생성 모델의 최근 발전은 높은 충실도의 캐릭터 애니메이션을 위한 길을 열었습니다. 본 연구에서는 강력하고 정밀하며 표현력이 풍부한 전체적 캐릭터 애니메이션을 위해 특별히 설계된 통합 DiT 기반 프레임워크인 Kling-MotionControl을 제시합니다. 일관된 시스템 내에서 분할 정복 전략을 활용하여, 이 모델은 신체, 얼굴, 손의 고유한 특성에 맞춰 이질적인 운동 표현을 조율하며, 대규모 구조적 안정성과 세밀한 관절 표현력을 효과적으로 조화시킵니다. 강력한 교차 정체성 일반화를 보장하기 위해 적응형 정체성 불분명 학습을 도입하여, 현실적인 인간부터 스타일화된 만화 캐릭터에 이르기까지 다양한 대상에 대한 자연스러운 운동 재타겟팅을 용이하게 합니다. 동시에, 정교한 정체성 주입 및 융합 설계를 통해 충실한 외형 보존을 보장하며, 포괄적인 참조 컨텍스트를 활용하는 주체 라이브러리 메커니즘으로 추가적으로 지원됩니다. 실용적 유용성을 보장하기 위해 다단계 증류를 활용한 고급 가속 프레임워크를 구현하여 추론 속도를 10배 이상 향상시켰습니다. Kling-MotionControl은 지능적인 의미론적 운동 이해와 정밀한 텍스트 응답성을 통해 시각적 입력을 넘어선 유연한 제어를 가능하게 하는 점에서 두각을 나타냅니다. 인간 선호도 평가 결과, Kling-MotionControl이 주요 상용 및 오픈소스 솔루션 대비 우수한 성능을 제공하며, 전체적 운동 제어, 개방형 도메인 일반화, 시각적 품질 및 일관성에서 탁월한 충실도를 달성함을 보여줍니다. 이러한 결과는 Kling-MotionControl을 고품질, 제어 가능하며 생생한 캐릭터 애니메이션을 위한 강력한 솔루션으로 입증합니다.
English
Character animation aims to generate lifelike videos by transferring motion dynamics from a driving video to a reference image. Recent strides in generative models have paved the way for high-fidelity character animation. In this work, we present Kling-MotionControl, a unified DiT-based framework engineered specifically for robust, precise, and expressive holistic character animation. Leveraging a divide-and-conquer strategy within a cohesive system, the model orchestrates heterogeneous motion representations tailored to the distinct characteristics of body, face, and hands, effectively reconciling large-scale structural stability with fine-grained articulatory expressiveness. To ensure robust cross-identity generalization, we incorporate adaptive identity-agnostic learning, facilitating natural motion retargeting for diverse characters ranging from realistic humans to stylized cartoons. Simultaneously, we guarantee faithful appearance preservation through meticulous identity injection and fusion designs, further supported by a subject library mechanism that leverages comprehensive reference contexts. To ensure practical utility, we implement an advanced acceleration framework utilizing multi-stage distillation, boosting inference speed by over 10x. Kling-MotionControl distinguishes itself through intelligent semantic motion understanding and precise text responsiveness, allowing for flexible control beyond visual inputs. Human preference evaluations demonstrate that Kling-MotionControl delivers superior performance compared to leading commercial and open-source solutions, achieving exceptional fidelity in holistic motion control, open domain generalization, and visual quality and coherence. These results establish Kling-MotionControl as a robust solution for high-quality, controllable, and lifelike character animation.