ChatPaper.aiChatPaper

Kling-Avatar: Fundamentando Instruções Multimodais para Síntese de Animação de Avatar em Cascata de Longa Duração

Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

September 11, 2025
Autores: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI

Resumo

Avanços recentes na geração de vídeos de avatares impulsionados por áudio têm aprimorado significativamente o realismo audiovisual. No entanto, os métodos existentes tratam o condicionamento por instruções meramente como um rastreamento de baixo nível guiado por pistas acústicas ou visuais, sem modelar o propósito comunicativo transmitido pelas instruções. Essa limitação compromete sua coerência narrativa e expressividade dos personagens. Para preencher essa lacuna, introduzimos o Kling-Avatar, uma nova estrutura em cascata que unifica a compreensão multimodal de instruções com a geração de retratos fotorealistas. Nossa abordagem adota um pipeline de dois estágios. No primeiro estágio, projetamos um diretor baseado em um modelo de linguagem multimodal (MLLM) que produz um vídeo de referência condicionado a diversos sinais de instrução, governando assim semânticas de alto nível, como movimento e emoções dos personagens. No segundo estágio, guiados pelos quadros-chave de referência, geramos múltiplos sub-clipes em paralelo usando uma estratégia de primeiro-último quadro. Essa estrutura global-para-local preserva detalhes refinados enquanto codifica fielmente a intenção de alto nível por trás das instruções multimodais. Nossa arquitetura paralela também permite a geração rápida e estável de vídeos de longa duração, tornando-a adequada para aplicações do mundo real, como transmissões ao vivo e vlogs de humanos digitais. Para avaliar nosso método de forma abrangente, construímos um benchmark com 375 amostras curadas, cobrindo diversas instruções e cenários desafiadores. Experimentos extensivos demonstram que o Kling-Avatar é capaz de gerar vídeos vívidos, fluentes e de longa duração com resolução de até 1080p e 48 fps, alcançando desempenho superior em precisão de sincronização labial, expressividade emocional e dinâmica, controlabilidade de instruções, preservação de identidade e generalização entre domínios. Esses resultados estabelecem o Kling-Avatar como um novo padrão para a síntese de avatares impulsionados por áudio, semanticamente fundamentada e de alta fidelidade.
English
Recent advances in audio-driven avatar video generation have significantly enhanced audio-visual realism. However, existing methods treat instruction conditioning merely as low-level tracking driven by acoustic or visual cues, without modeling the communicative purpose conveyed by the instructions. This limitation compromises their narrative coherence and character expressiveness. To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that unifies multimodal instruction understanding with photorealistic portrait generation. Our approach adopts a two-stage pipeline. In the first stage, we design a multimodal large language model (MLLM) director that produces a blueprint video conditioned on diverse instruction signals, thereby governing high-level semantics such as character motion and emotions. In the second stage, guided by blueprint keyframes, we generate multiple sub-clips in parallel using a first-last frame strategy. This global-to-local framework preserves fine-grained details while faithfully encoding the high-level intent behind multimodal instructions. Our parallel architecture also enables fast and stable generation of long-duration videos, making it suitable for real-world applications such as digital human livestreaming and vlogging. To comprehensively evaluate our method, we construct a benchmark of 375 curated samples covering diverse instructions and challenging scenarios. Extensive experiments demonstrate that Kling-Avatar is capable of generating vivid, fluent, long-duration videos at up to 1080p and 48 fps, achieving superior performance in lip synchronization accuracy, emotion and dynamic expressiveness, instruction controllability, identity preservation, and cross-domain generalization. These results establish Kling-Avatar as a new benchmark for semantically grounded, high-fidelity audio-driven avatar synthesis.
PDF402September 12, 2025