KlingAvatar 2.0 Technischer Bericht
KlingAvatar 2.0 Technical Report
December 15, 2025
papers.authors: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI
papers.abstract
Avatarbasierte Videogenerierungsmodelle haben in den letzten Jahren bemerkenswerte Fortschritte erzielt. Bisherige Arbeiten zeigen jedoch eine begrenzte Effizienz bei der Erzeugung langandauernder hochauflösender Videos, wobei sie unter zeitlicher Drift, Qualitätsverschlechterung und schwacher Befehlsbefolgung mit zunehmender Videolänge leiden. Um diese Herausforderungen zu bewältigen, schlagen wir KlingAvatar 2.0 vor, ein raumzeitliches Kaskadenframework, das eine Hochskalierung sowohl in der räumlichen Auflösung als auch in der zeitlichen Dimension vornimmt. Das Framework erzeugt zunächst niedrigaufgelöste Blueprint-Videokeyframes, die globale Semantik und Bewegung erfassen, und verfeinert diese dann unter Verwendung einer First-Last-Frame-Strategie zu hochauflösenden, zeitlich kohärenten Teilclips, wobei gleichzeitig fließende zeitliche Übergänge in langen Videos erhalten bleiben. Um die cross-modale Befehlsfusion und -ausrichtung in längeren Videos zu verbessern, führen wir einen Co-Reasoning Director ein, der aus drei modalitätsspezifischen Large Language Model (LLM)-Experten besteht. Diese Experten analysieren Modalitätsprioritäten und legen zugrunde liegende Benutzerabsichten durch mehrstufige Dialoge offen, um Eingaben in detaillierte Handlungsstränge umzuwandeln. Ein Negative Director verfeinert negative Prompts weiter, um die Befehlsausrichtung zu verbessern. Aufbauend auf diesen Komponenten erweitern wir das Framework zur Unterstützung einer IDspezifischen Multi-Charakter-Steuerung. Umfangreiche Experimente belegen, dass unser Modell die Herausforderungen einer effizienten, multimodal ausgerichteten Generierung langandauernder hochauflösender Videos effektiv adressiert und eine verbesserte visuelle Klarheit, realistische Lippen-Zähne-Darstellung mit präziser Lippensynchronisation, starke Identitätserhaltung und kohärente multimodale Befehlsbefolgung liefert.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.