Rapporto Tecnico di KlingAvatar 2.0
KlingAvatar 2.0 Technical Report
December 15, 2025
Autori: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI
Abstract
I modelli di generazione video avatar hanno compiuto progressi notevoli negli ultimi anni. Tuttavia, i lavori precedenti mostrano un'efficienza limitata nella generazione di video ad alta risoluzione di lunga durata, soffrendo di deriva temporale, degradazione della qualità e un debole adeguamento ai prompt all'aumentare della lunghezza del video. Per affrontare queste sfide, proponiamo KlingAvatar 2.0, un framework a cascata spazio-temporale che esegue un upscaling sia nella risoluzione spaziale che nella dimensione temporale. Il framework genera prima keyframe video blueprint a bassa risoluzione che catturano la semantica globale e il movimento, per poi affinarli in sottoclip ad alta risoluzione e temporalmente coerenti utilizzando una strategia dei frame iniziale-finale, mantenendo al contempo transizioni temporali fluide in video di lunga durata. Per potenziare la fusione e l'allineamento delle istruzioni cross-modale in video estesi, introduciamo un Direttore di Co-Ragionamento (Co-Reasoning Director) composto da tre esperti LLM (Large Language Model) specifici per modalità. Questi esperti ragionano sulle priorità delle modalità e inferiscono l'intento sottostante dell'utente, convertendo gli input in trame narrative dettagliate attraverso dialoghi multi-turno. Un Direttore Negativo (Negative Director) affina ulteriormente i prompt negativi per migliorare l'allineamento alle istruzioni. Basandosi su questi componenti, estendiamo il framework per supportare il controllo multi-personaggio specifico per ID. Esperimenti estensivi dimostrano che il nostro modello affronta efficacemente le sfide della generazione efficiente di video lunghi e ad alta risoluzione con allineamento multimodale, offrendo una chiarezza visiva migliorata, un rendering realistico di labbra e denti con una precisa sincronizzazione labiale, una forte preservazione dell'identità e un coerente adeguamento alle istruzioni multimodali.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.