ChatPaper.aiChatPaper

클링아바타 2.0 기술 보고서

KlingAvatar 2.0 Technical Report

December 15, 2025
저자: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI

초록

최근 아바타 비디오 생성 모델은 놀라운 발전을 이루었습니다. 그러나 기존 연구들은 장시간 고해상도 비디오 생성에 있어 제한된 효율성을 보이며, 비디오 길이가 증가함에 따라 시간적 드리프트(temporal drifting), 화질 저하, 약한 프롬프트 추종 문제가 발생합니다. 이러한 과제를 해결하기 위해 우리는 공간 해상도와 시간 차원 모두에서 업스케일링을 수행하는 시공간 캐스케이드 프레임워크인 KlingAvatar 2.0을 제안합니다. 본 프레임워크는 먼저 전역 의미론과 동작을 포착하는 저해상도 청사진 비디오 키프레임을 생성한 후, first-last 프레임 전략을 사용하여 이를 고해상도이면서 시간적으로 일관된 서브 클립으로 정제하며 장편 비디오에서 부드러운 시간적 전환을 유지합니다. 장시간 비디오에서의 크로스 모달 명령어 융합 및 정렬을 강화하기 위해, 우리는 세 가지 모달리티 특화 대규모 언어 모델(LLM) 전문가로 구성된 Co-Reasoning Director를 도입했습니다. 이러한 전문가들은 모달리티 우선순위를 추론하고 사용자의 잠재적 의도를 추측하며, 다중 턴 대화를 통해 입력을 상세한 스토리라인으로 변환합니다. Negative Director는 부정 프롬프트를 추가로 정제하여 명령어 정렬을 개선합니다. 이러한 구성 요소를 바탕으로, 우리는 프레임워크를 확장하여 ID 특화 다중 캐릭터 제어를 지원합니다. 광범위한 실험을 통해 우리 모델이 효율적이고 다중 모달리티로 정렬된 장편 고해상도 비디오 생성의 과제를 효과적으로 해결하며, 향상된 시각적 선명도, 정확한 입 동기화를 통한 사실적인 입술-이진 렌더링, 강력한 신원 보존, 그리고 일관된 다중 모달리티 명령어 추종 성능을 제공함을 입증했습니다.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.
PDF322December 17, 2025