Kling-Avatar : Ancrage d'instructions multimodales pour la synthèse en cascade d'animations d'avatars de longue durée
Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
September 11, 2025
papers.authors: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI
papers.abstract
Les récentes avancées dans la génération de vidéos d'avatars pilotées par l'audio ont considérablement amélioré le réalisme audio-visuel. Cependant, les méthodes existantes traitent le conditionnement par instructions simplement comme un suivi de bas niveau guidé par des indices acoustiques ou visuels, sans modéliser l'intention communicative véhiculée par les instructions. Cette limitation compromet leur cohérence narrative et l'expressivité des personnages. Pour combler cette lacune, nous présentons Kling-Avatar, un nouveau framework en cascade qui unifie la compréhension multimodale des instructions avec la génération de portraits photoréalistes. Notre approche adopte un pipeline en deux étapes. Dans la première étape, nous concevons un directeur basé sur un modèle de langage multimodale (MLLM) qui produit une vidéo planifiée conditionnée par divers signaux d'instructions, régissant ainsi les sémantiques de haut niveau telles que les mouvements et les émotions des personnages. Dans la deuxième étape, guidés par les images clés du plan, nous générons plusieurs sous-clips en parallèle en utilisant une stratégie de première-dernière image. Ce framework global-local préserve les détails fins tout en encodant fidèlement l'intention de haut niveau derrière les instructions multimodales. Notre architecture parallèle permet également une génération rapide et stable de vidéos de longue durée, la rendant adaptée à des applications réelles telles que le streaming et le vlogging d'humains numériques. Pour évaluer de manière exhaustive notre méthode, nous construisons un benchmark de 375 échantillons soigneusement sélectionnés couvrant diverses instructions et scénarios complexes. Des expériences approfondies démontrent que Kling-Avatar est capable de générer des vidéos vives, fluides et de longue durée jusqu'à 1080p et 48 ips, obtenant des performances supérieures en termes de précision de synchronisation labiale, d'expressivité émotionnelle et dynamique, de contrôlabilité des instructions, de préservation de l'identité et de généralisation inter-domaines. Ces résultats établissent Kling-Avatar comme un nouveau benchmark pour la synthèse d'avatars pilotés par l'audio, sémantiquement fondée et de haute fidélité.
English
Recent advances in audio-driven avatar video generation have significantly
enhanced audio-visual realism. However, existing methods treat instruction
conditioning merely as low-level tracking driven by acoustic or visual cues,
without modeling the communicative purpose conveyed by the instructions. This
limitation compromises their narrative coherence and character expressiveness.
To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that
unifies multimodal instruction understanding with photorealistic portrait
generation. Our approach adopts a two-stage pipeline. In the first stage, we
design a multimodal large language model (MLLM) director that produces a
blueprint video conditioned on diverse instruction signals, thereby governing
high-level semantics such as character motion and emotions. In the second
stage, guided by blueprint keyframes, we generate multiple sub-clips in
parallel using a first-last frame strategy. This global-to-local framework
preserves fine-grained details while faithfully encoding the high-level intent
behind multimodal instructions. Our parallel architecture also enables fast and
stable generation of long-duration videos, making it suitable for real-world
applications such as digital human livestreaming and vlogging. To
comprehensively evaluate our method, we construct a benchmark of 375 curated
samples covering diverse instructions and challenging scenarios. Extensive
experiments demonstrate that Kling-Avatar is capable of generating vivid,
fluent, long-duration videos at up to 1080p and 48 fps, achieving superior
performance in lip synchronization accuracy, emotion and dynamic
expressiveness, instruction controllability, identity preservation, and
cross-domain generalization. These results establish Kling-Avatar as a new
benchmark for semantically grounded, high-fidelity audio-driven avatar
synthesis.