Kling-Avatar: Fundamentación de Instrucciones Multimodales para la Síntesis en Cascada de Animaciones de Avatares de Larga Duración
Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
September 11, 2025
Autores: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI
Resumen
Los recientes avances en la generación de videos de avatares impulsados por audio han mejorado significativamente el realismo audiovisual. Sin embargo, los métodos existentes tratan el condicionamiento por instrucciones simplemente como un seguimiento de bajo nivel impulsado por señales acústicas o visuales, sin modelar el propósito comunicativo transmitido por las instrucciones. Esta limitación compromete su coherencia narrativa y expresividad de los personajes. Para cerrar esta brecha, presentamos Kling-Avatar, un novedoso marco en cascada que unifica la comprensión multimodal de instrucciones con la generación de retratos fotorrealistas. Nuestro enfoque adopta un pipeline de dos etapas. En la primera etapa, diseñamos un director basado en un modelo de lenguaje multimodal (MLLM) que produce un video de planificación condicionado por diversas señales de instrucción, gobernando así semánticas de alto nivel como el movimiento y las emociones del personaje. En la segunda etapa, guiados por fotogramas clave de la planificación, generamos múltiples subclips en paralelo utilizando una estrategia de primer-último fotograma. Este marco de global a local preserva detalles finos mientras codifica fielmente la intención de alto nivel detrás de las instrucciones multimodales. Nuestra arquitectura paralela también permite una generación rápida y estable de videos de larga duración, haciéndola adecuada para aplicaciones del mundo real como transmisiones en vivo y vlogging con humanos digitales. Para evaluar exhaustivamente nuestro método, construimos un benchmark de 375 muestras curadas que cubren diversas instrucciones y escenarios desafiantes. Experimentos extensivos demuestran que Kling-Avatar es capaz de generar videos vívidos, fluidos y de larga duración con una resolución de hasta 1080p y 48 fps, logrando un rendimiento superior en precisión de sincronización labial, expresividad emocional y dinámica, controlabilidad de instrucciones, preservación de identidad y generalización entre dominios. Estos resultados establecen a Kling-Avatar como un nuevo referente para la síntesis de avatares impulsados por audio con base semántica y alta fidelidad.
English
Recent advances in audio-driven avatar video generation have significantly
enhanced audio-visual realism. However, existing methods treat instruction
conditioning merely as low-level tracking driven by acoustic or visual cues,
without modeling the communicative purpose conveyed by the instructions. This
limitation compromises their narrative coherence and character expressiveness.
To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that
unifies multimodal instruction understanding with photorealistic portrait
generation. Our approach adopts a two-stage pipeline. In the first stage, we
design a multimodal large language model (MLLM) director that produces a
blueprint video conditioned on diverse instruction signals, thereby governing
high-level semantics such as character motion and emotions. In the second
stage, guided by blueprint keyframes, we generate multiple sub-clips in
parallel using a first-last frame strategy. This global-to-local framework
preserves fine-grained details while faithfully encoding the high-level intent
behind multimodal instructions. Our parallel architecture also enables fast and
stable generation of long-duration videos, making it suitable for real-world
applications such as digital human livestreaming and vlogging. To
comprehensively evaluate our method, we construct a benchmark of 375 curated
samples covering diverse instructions and challenging scenarios. Extensive
experiments demonstrate that Kling-Avatar is capable of generating vivid,
fluent, long-duration videos at up to 1080p and 48 fps, achieving superior
performance in lip synchronization accuracy, emotion and dynamic
expressiveness, instruction controllability, identity preservation, and
cross-domain generalization. These results establish Kling-Avatar as a new
benchmark for semantically grounded, high-fidelity audio-driven avatar
synthesis.