ChatPaper.aiChatPaper

KlingAvatar 2.0 Technisch Rapport

KlingAvatar 2.0 Technical Report

December 15, 2025
Auteurs: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI

Samenvatting

Avatarvideogeneratiemodellen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt. Eerdere werkzaamheden vertonen echter beperkte efficiëntie bij het genereren van langdurige video's met hoge resolutie, waarbij ze last hebben van temporele drift, kwaliteitsvermindering en zwakke promptvolging naarmate de videolengte toeneemt. Om deze uitdagingen aan te pakken, stellen we KlingAvatar 2.0 voor, een spatio-temporeel cascadekader dat upscaling uitvoert in zowel ruimtelijke resolutie als temporele dimensie. Het kader genereert eerst laagresolutie blauwdruk-videokeyframes die globale semantiek en beweging vastleggen, en verfijnt deze vervolgens tot hoogresolutie, temporeel samenhangende subclips met behulp van een eerste-laatste-frame-strategie, waarbij soepele temporele overgangen in langere video's behouden blijven. Om cross-modale instructiefusie en -alignering in langere video's te verbeteren, introduceren we een Co-Reasoning Director, bestaande uit drie modality-specifieke large language model (LLM)-experts. Deze experts redeneren over modality-prioriteiten en leiden onderliggende gebruikersintentie af, waarbij ze invoer via meerronde dialogen omzetten in gedetailleerde verhaallijnen. Een Negative Director verfijnt negatieve prompts verder om de instructie-alignering te verbeteren. Voortbouwend op deze componenten breiden we het kader uit om ID-specifieke multi-karaktercontrole te ondersteunen. Uitgebreide experimenten tonen aan dat ons model de uitdagingen van efficiënte, multimodaal uitgelijnde langere hoogresolutie-videogeneratie effectief aanpakt, waarbij het verbeterde visuele helderheid, realistische lip-tandenweergave met accurate lipsynchronisatie, sterke identiteitsbehoud en coherente multimodale instructievolging biedt.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.
PDF402December 22, 2025