Rapport Technique de KlingAvatar 2.0
KlingAvatar 2.0 Technical Report
December 15, 2025
papers.authors: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI
papers.abstract
Les modèles de génération vidéo d'avatars ont réalisé des progrès remarquables ces dernières années. Cependant, les travaux antérieurs présentent une efficacité limitée pour générer des vidéos longue durée en haute résolution, souffrant de dérive temporelle, de dégradation qualitative et d'un faible suivi des instructions à mesure que la durée vidéo augmente. Pour relever ces défis, nous proposons KlingAvatar 2.0, un cadre en cascade spatio-temporelle qui effectue un suréchantillonnage tant en résolution spatiale qu'en dimension temporelle. Le cadre génère d'abord des images clés vidéo en basse résolution capturant la sémantique globale et le mouvement, puis les affine en sous-clips haute résolution et cohérents temporellement à l'aide d'une stratégie de première-dernière image, tout en conservant des transitions temporelles fluides dans les vidéos long format. Pour améliorer la fusion et l'alignement des instructions multimodales dans les vidéos étendues, nous introduisons un Directeur de Co-Raisonnement composé de trois experts spécialisés par modalité utilisant de grands modèles de langage (LLM). Ces experts raisonnent sur les priorités modales et infèrent l'intention sous-jacente de l'utilisateur, convertissant les entrées en scénarios détaillés via un dialogue multi-tours. Un Directeur Négatif affine en outre les instructions négatives pour améliorer l'alignement aux consignes. Sur la base de ces composants, nous étendons le cadre pour prendre en charge le contrôle multi-personnages spécifique à une identité. Des expériences approfondies démontrent que notre modèle résout efficacement les défis de la génération vidéo longue durée haute résolution, efficace et multimodalement alignée, offrant une clarté visuelle accrue, un rendu réaliste des lèvres et des dents avec une synchronisation labiale précise, une forte préservation de l'identité et un suivi cohérent des instructions multimodales.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.