ChatPaper.aiChatPaper

Kling-Avatar: Verankerung multimodaler Anweisungen für die kaskadierte Synthese langandauernder Avatar-Animationen

Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

September 11, 2025
papers.authors: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI

papers.abstract

Jüngste Fortschritte in der audio-gesteuerten Avatar-Videogenerierung haben die audiovisuelle Realität erheblich verbessert. Bisherige Methoden behandeln die Anweisungssteuerung jedoch lediglich als Low-Level-Tracking, das durch akustische oder visuelle Hinweise gesteuert wird, ohne den kommunikativen Zweck, der durch die Anweisungen vermittelt wird, zu modellieren. Diese Einschränkung beeinträchtigt ihre narrative Kohärenz und Charakterausdruckskraft. Um diese Lücke zu schließen, stellen wir Kling-Avatar vor, ein neuartiges kaskadiertes Framework, das multimodale Anweisungsverständnis mit fotorealistischer Porträtgenerierung vereint. Unser Ansatz folgt einer zweistufigen Pipeline. In der ersten Stufe entwerfen wir einen multimodalen Large Language Model (MLLM)-Regisseur, der ein Blueprint-Video auf der Grundlage verschiedener Anweisungssignale erzeugt und damit High-Level-Semantiken wie Charakterbewegungen und Emotionen steuert. In der zweiten Stufe generieren wir, geleitet von Blueprint-Keyframes, mehrere Sub-Clips parallel mithilfe einer First-Last-Frame-Strategie. Dieses global-lokale Framework bewahrt feinste Details, während es gleichzeitig die High-Level-Intention hinter multimodalen Anweisungen treu kodiert. Unsere parallele Architektur ermöglicht zudem eine schnelle und stabile Generierung von langen Videos, was sie für reale Anwendungen wie Livestreaming und Vlogging mit digitalen Menschen geeignet macht. Um unsere Methode umfassend zu evaluieren, haben wir einen Benchmark mit 375 kuratierten Proben erstellt, die verschiedene Anweisungen und herausfordernde Szenarien abdecken. Umfangreiche Experimente zeigen, dass Kling-Avatar in der Lage ist, lebendige, flüssige und lange Videos mit bis zu 1080p und 48 fps zu generieren und dabei überlegene Leistungen in Bezug auf Lippensynchronisationsgenauigkeit, Emotions- und Dynamikausdruck, Anweisungskontrollierbarkeit, Identitätserhaltung und domänenübergreifende Generalisierung zu erzielen. Diese Ergebnisse etablieren Kling-Avatar als neuen Benchmark für semantisch fundierte, hochauflösende audio-gesteuerte Avatar-Synthese.
English
Recent advances in audio-driven avatar video generation have significantly enhanced audio-visual realism. However, existing methods treat instruction conditioning merely as low-level tracking driven by acoustic or visual cues, without modeling the communicative purpose conveyed by the instructions. This limitation compromises their narrative coherence and character expressiveness. To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that unifies multimodal instruction understanding with photorealistic portrait generation. Our approach adopts a two-stage pipeline. In the first stage, we design a multimodal large language model (MLLM) director that produces a blueprint video conditioned on diverse instruction signals, thereby governing high-level semantics such as character motion and emotions. In the second stage, guided by blueprint keyframes, we generate multiple sub-clips in parallel using a first-last frame strategy. This global-to-local framework preserves fine-grained details while faithfully encoding the high-level intent behind multimodal instructions. Our parallel architecture also enables fast and stable generation of long-duration videos, making it suitable for real-world applications such as digital human livestreaming and vlogging. To comprehensively evaluate our method, we construct a benchmark of 375 curated samples covering diverse instructions and challenging scenarios. Extensive experiments demonstrate that Kling-Avatar is capable of generating vivid, fluent, long-duration videos at up to 1080p and 48 fps, achieving superior performance in lip synchronization accuracy, emotion and dynamic expressiveness, instruction controllability, identity preservation, and cross-domain generalization. These results establish Kling-Avatar as a new benchmark for semantically grounded, high-fidelity audio-driven avatar synthesis.
PDF342September 12, 2025