Kling-Avatar: Основание мультимодальных инструкций для каскадного синтеза длительной анимации аватаров
Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
September 11, 2025
Авторы: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI
Аннотация
Последние достижения в генерации видео аватаров, управляемых аудио, значительно повысили аудиовизуальный реализм. Однако существующие методы рассматривают управление инструкциями лишь как низкоуровневое отслеживание, основанное на акустических или визуальных сигналах, без моделирования коммуникативной цели, передаваемой инструкциями. Это ограничение снижает их нарративную согласованность и выразительность персонажей. Чтобы устранить этот пробел, мы представляем Kling-Avatar — новый каскадный фреймворк, объединяющий мультимодальное понимание инструкций с фотореалистичной генерацией портретов. Наш подход использует двухэтапный процесс. На первом этапе мы разрабатываем мультимодальную большую языковую модель (MLLM) в роли режиссера, которая создает черновое видео, управляемое разнообразными инструкциями, тем самым контролируя высокоуровневую семантику, такую как движение персонажей и эмоции. На втором этапе, руководствуясь ключевыми кадрами чернового видео, мы генерируем несколько субклипов параллельно, используя стратегию "первый-последний кадр". Этот глобально-локальный фреймворк сохраняет детализированные элементы, точно кодируя высокоуровневый замысел, стоящий за мультимодальными инструкциями. Наша параллельная архитектура также обеспечивает быструю и стабильную генерацию длительных видео, что делает её пригодной для реальных приложений, таких как трансляции цифровых людей и видеоблогинг. Для всесторонней оценки нашего метода мы создали бенчмарк из 375 тщательно отобранных образцов, охватывающих разнообразные инструкции и сложные сценарии. Многочисленные эксперименты демонстрируют, что Kling-Avatar способен генерировать яркие, плавные и длительные видео с разрешением до 1080p и частотой 48 кадров в секунду, достигая превосходных результатов в точности синхронизации губ, выразительности эмоций и динамики, управляемости инструкциями, сохранении идентичности и кросс-доменной обобщаемости. Эти результаты устанавливают Kling-Avatar как новый эталон для семантически обоснованного, высококачественного синтеза аватаров, управляемых аудио.
English
Recent advances in audio-driven avatar video generation have significantly
enhanced audio-visual realism. However, existing methods treat instruction
conditioning merely as low-level tracking driven by acoustic or visual cues,
without modeling the communicative purpose conveyed by the instructions. This
limitation compromises their narrative coherence and character expressiveness.
To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that
unifies multimodal instruction understanding with photorealistic portrait
generation. Our approach adopts a two-stage pipeline. In the first stage, we
design a multimodal large language model (MLLM) director that produces a
blueprint video conditioned on diverse instruction signals, thereby governing
high-level semantics such as character motion and emotions. In the second
stage, guided by blueprint keyframes, we generate multiple sub-clips in
parallel using a first-last frame strategy. This global-to-local framework
preserves fine-grained details while faithfully encoding the high-level intent
behind multimodal instructions. Our parallel architecture also enables fast and
stable generation of long-duration videos, making it suitable for real-world
applications such as digital human livestreaming and vlogging. To
comprehensively evaluate our method, we construct a benchmark of 375 curated
samples covering diverse instructions and challenging scenarios. Extensive
experiments demonstrate that Kling-Avatar is capable of generating vivid,
fluent, long-duration videos at up to 1080p and 48 fps, achieving superior
performance in lip synchronization accuracy, emotion and dynamic
expressiveness, instruction controllability, identity preservation, and
cross-domain generalization. These results establish Kling-Avatar as a new
benchmark for semantically grounded, high-fidelity audio-driven avatar
synthesis.