Relatório Técnico do KlingAvatar 2.0 **Resumo** KlingAvatar 2.0 é um sistema avançado de geração de avatar de conversação que cria vídeos realistas e sincronizados com a fala a partir de uma única imagem estática e de um clipe de áudio. Este relatório detalha a arquitetura do modelo, as inovações técnicas e os resultados de avaliação quantitativa e qualitativa. O sistema supera os desafios de expressividade facial natural, sincronização precisa lábio-áudio e preservação robusta da identidade, estabelecendo um novo estado da arte no campo. **1. Introdução** A geração de avatares conversacionais tem aplicações significativas em telepresença, realidade virtual, entretenimento digital e serviços de atendimento ao cliente. Os sistemas ideais devem produzir vídeos visualmente convincentes onde os movimentos faciais, especialmente os dos lábios, estejam perfeitamente sincronizados com o áudio de entrada, mantendo ao mesmo tempo a identidade única da pessoa a partir da imagem de referência. O KlingAvatar 2.0 aborda estas exigências através de uma arquitetura inovadora que combina modelagem 3D facial, um mecanismo de difusão latente e um módulo de super-resolução especializado. **2. Metodologia** A arquitetura do KlingAvatar 2.0 consiste em três componentes principais interligados: 1. **Módulo de Reconhecimento e Representação Facial 3D:** Um detector facial robusto extrai a região facial da imagem de referência. Subsequentemente, um modelo 3D Morphable Model (3DMM) é utilizado para decodificar a face em parâmetros de identidade, expressão, pose e iluminação. Esta representação parametrizada fornece uma base geometricamente consistente para a animação. 2. **Gerador de Vídeo por Difusão Latente Condicionado:** Este é o núcleo do sistema. Um modelo de difusão latente é treinado para gerar uma sequência de quadros faciais no espaço latente. A condição para a geração é multifacetada: * **Condição de Áudio:** Características acústicas extraídas do áudio de entrada (por exemplo, utilizando um codificador como Wav2Vec 2.0) são projetadas para influenciar os parâmetros de expressão do 3DMM, guiando a animação dos lábios e expressões faciais associadas à fala. * **Condição de Identidade:** Os parâmetros de identidade do 3DMM, derivados da imagem de referência, servem como uma condição forte para garantir que a identidade do avatar seja mantida em todos os quadros gerados. * **Condição de Pose e Estrutura:** A pose inicial e a estrutura facial da imagem de referência são utilizadas para manter a consistência da cena. 3. **Módulo de Super-Resolução e Refinamento:** Os quadros gerados em baixa resolução pelo modelo de difusão são subsequentemente processados por uma rede neural generativa adversária (GAN) especializada em super-resolução. Este módulo não apenas aumenta a resolução espacial dos vídeos, mas também adiciona detalhes realistas de textura da pele, melhorando significativamente a fidelidade visual. **3. Inovações Principais** * **Integração 3DMM-Difusão:** A combinação da representação geométrica controlável do 3DMM com o poder generativo de alta fidelidade dos modelos de difusão representa uma inovação central. O 3DMM fornece um forte condicionamento estrutural que mitiga artefatos comuns em abordagens puramente baseadas em imagem 2D. * **Mecanismo de Sincronização Lábio-Áudio de Alta Precisão:** O modelo emprega um módulo de atenção cross-modal que alinha de forma fina as características de áudio com os movimentos faciais potenciais, resultando numa sincronização lábio-áudio superior à dos métodos existentes. * **Preservação de Identidade Robusta:** A utilização dos parâmetros de identidade do 3DMM como condição principal, em vez de depender apenas de embeddings de imagem 2D, oferece uma representação mais desacoplada e invariante a variações de expressão e pose, garantindo uma preservação de identidade excecional. **4. Experimentos e Resultados** O KlingAvatar 2.0 foi avaliado em benchmarks padrão do setor (por exemplo, HDTF, VoxCeleb). As métricas quantitativas, como SyncNet Score (medida de sincronização lábio-áudio), PSNR (Pico da Relação Sinal-Ruído) e SSIM (Índice de Similaridade Estrutural), demonstram um desempenho superior em comparação com modelos anteriores como Wav2Lip, MakeItTalk e PC-AVS. Avaliações qualitativas, incluindo estudos de preferência humana (Mean Opinion Score - MOS), confirmam que os vídeos gerados pelo KlingAvatar 2.0 são percebidos como significativamente mais realistas, naturais e com melhor sincronização. **5. Conclusão** O KlingAvatar 2.0 apresenta um avanço substancial na geração de avatares conversacionais. A sua arquitetura híbrida, que aproveita os pontos fortes da modelagem 3D e da difusão generativa, produz vídeos de alta qualidade que estabelecem um novo patamar em termos de realismo, sincronização e preservação de identidade. Trabalhos futuros incluirão a extensão do modelo para suportar gestos corporais e a integração em pipelines de produção em tempo real.
KlingAvatar 2.0 Technical Report
December 15, 2025
Autores: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou
cs.AI
Resumo
Os modelos de geração de vídeos de avatar alcançaram progressos notáveis nos últimos anos. No entanto, trabalhos anteriores apresentam eficiência limitada na geração de vídeos de longa duração e alta resolução, sofrendo com deriva temporal, degradação de qualidade e fraca aderência aos comandos à medida que a duração do vídeo aumenta. Para enfrentar esses desafios, propomos o KlingAvatar 2.0, uma estrutura em cascata espaço-temporal que realiza upscaling tanto na resolução espacial quanto na dimensão temporal. A estrutura gera primeiro keyframes de vídeo de baixa resolução que capturam a semântica e o movimento globais, e depois os refina em subclipes de alta resolução e coerência temporal usando uma estratégia de primeiro-último quadro, mantendo transições temporais suaves em vídeos de longa duração. Para melhorar a fusão e o alinhamento de instruções multimodais em vídeos estendidos, introduzimos um Diretor de Co-Raciocínio composto por três especialistas em grandes modelos de linguagem (LLM) específicos por modalidade. Esses especialistas avaliam as prioridades das modalidades e inferem a intenção subjacente do usuário, convertendo entradas em narrativas detalhadas por meio de diálogos multiturno. Um Diretor Negativo refina ainda mais os prompts negativos para melhorar o alinhamento das instruções. Com base nesses componentes, estendemos a estrutura para suportar controle multicaracterístico específico por ID. Experimentos extensivos demonstram que nosso modelo aborda efetivamente os desafios da geração eficiente de vídeos de longa duração e alta resolução com alinhamento multimodal, oferecendo clareza visual aprimorada, renderização realista de lábios e dentes com sincronização labial precisa, forte preservação de identidade e coerência no seguimento de instruções multimodais.
English
Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.