ChatPaper.aiChatPaper

Informe Técnico de KlingAvatar 2.0

KlingAvatar 2.0 Technical Report

December 15, 2025
Autores: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI

Resumen

Los modelos de generación de vídeo con avatar han logrado avances notables en los últimos años. Sin embargo, trabajos anteriores presentan una eficiencia limitada para generar vídeos de larga duración y alta resolución, adoleciendo de deriva temporal, degradación de calidad y seguimiento débil de las instrucciones a medida que aumenta la duración del vídeo. Para abordar estos desafíos, proponemos KlingAvatar 2.0, un marco de trabajo en cascada espacio-temporal que realiza un escalado tanto en la resolución espacial como en la dimensión temporal. El marco genera primero fotogramas clave de vídeo de baja resolución que capturan la semántica y el movimiento global, y luego los refina en subclips de alta resolución y temporalmente coherentes utilizando una estrategia de primer-último fotograma, manteniendo transiciones temporales fluidas en vídeos de larga duración. Para mejorar la fusión y alineación de instrucciones multimodales en vídeos extensos, introducimos un Director de Co-Razonamiento compuesto por tres expertos de modelos de lenguaje grande específicos por modalidad. Estos expertos razonan sobre las prioridades de las modalidades e infieren la intención subyacente del usuario, convirtiendo las entradas en narrativas detalladas a través de diálogos multiturno. Un Director Negativo refina además las instrucciones negativas para mejorar la alineación con las indicaciones. Sobre estos componentes, extendemos el marco para admitir el control multi-personaje específico por identificación. Experimentos exhaustivos demuestran que nuestro modelo aborda eficazmente los desafíos de la generación eficiente de vídeos de alta resolución y larga duración con alineación multimodal, ofreciendo una claridad visual mejorada, una representación realista de labios y dientes con sincronización labial precisa, una fuerte preservación de la identidad y un seguimiento coherente de las instrucciones multimodales.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.
PDF322December 17, 2025