Технический отчет KlingAvatar 2.0
KlingAvatar 2.0 Technical Report
December 15, 2025
Авторы: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI
Аннотация
В последние годы модели генерации аватаров достигли значительного прогресса. Однако существующие подходы демонстрируют ограниченную эффективность при создании длительных видео высокого разрешения, страдая от временного дрейфа, деградации качества и слабого следования текстовым промптам с увеличением продолжительности видео. Для решения этих проблем мы предлагаем KlingAvatar 2.0 — каскадную пространственно-временную архитектуру, выполняющую апскейлинг как в пространственном разрешении, так и во временном измерении. Данная архитектура сначала генерирует ключевые кадры видео низкого разрешения, фиксирующие глобальную семантику и движение, а затем уточняет их в высокоразрешенные, временно согласованные суб-клипы с использованием стратегии первых-последних кадров, сохраняя плавные временные переходы в длинных видео. Для улучшения межмодального слияния инструкций и согласованности в продолжительных видео мы вводим Co-Reasoning Director, состоящий из трёх экспертов — больших языковых моделей (LLM), специализированных по модальностям. Эти эксперты анализируют приоритеты модальностей и выводят скрытые намерения пользователя, преобразуя входные данные в детализированные сценарии через многократный диалог. Negative Director дополнительно уточняет негативные промпты для улучшения соответствия инструкциям. На основе этих компонентов мы расширяем архитектуру для поддержки ID-специфичного управления несколькими персонажами. Многочисленные эксперименты демонстрируют, что наша модель эффективно решает задачи эффективной, многомодально согласованной генерации длительных видео высокого разрешения, обеспечивая улучшенную визуальную чёткость, реалистичный рендеринг губ и зубов с точной синхронизацией артикуляции, устойчивое сохранение идентичности и последовательное следование многомодальным инструкциям.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.