Kling-Avatar: Ancoraggio di istruzioni multimodali per la sintesi a cascata di animazioni di avatar di lunga durata
Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
September 11, 2025
Autori: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI
Abstract
I recenti progressi nella generazione di video di avatar guidati dall'audio hanno significativamente migliorato il realismo audio-visivo. Tuttavia, i metodi esistenti trattano il condizionamento delle istruzioni semplicemente come un tracciamento di basso livello guidato da segnali acustici o visivi, senza modellare lo scopo comunicativo trasmesso dalle istruzioni. Questa limitazione compromette la coerenza narrativa e l'espressività dei personaggi. Per colmare questa lacuna, introduciamo Kling-Avatar, un nuovo framework a cascata che unisce la comprensione multimodale delle istruzioni con la generazione fotorealistica di ritratti. Il nostro approccio adotta una pipeline in due fasi. Nella prima fase, progettiamo un direttore basato su un modello linguistico multimodale di grandi dimensioni (MLLM) che produce un video blueprint condizionato da segnali di istruzione diversi, governando così la semantica di alto livello come il movimento e le emozioni del personaggio. Nella seconda fase, guidati dai fotogrammi chiave del blueprint, generiamo in parallelo più sotto-clip utilizzando una strategia di primo-ultimo fotogramma. Questo framework globale-locale preserva i dettagli fini codificando fedelmente l'intento di alto livello dietro le istruzioni multimodali. La nostra architettura parallela consente anche una generazione rapida e stabile di video di lunga durata, rendendola adatta ad applicazioni del mondo reale come lo streaming di esseri umani digitali e il vlogging. Per valutare in modo completo il nostro metodo, abbiamo costruito un benchmark di 375 campioni curati che coprono istruzioni diverse e scenari impegnativi. Esperimenti estensivi dimostrano che Kling-Avatar è in grado di generare video vividi, fluidi e di lunga durata fino a 1080p e 48 fps, ottenendo prestazioni superiori in termini di precisione nella sincronizzazione labiale, espressività emotiva e dinamica, controllabilità delle istruzioni, conservazione dell'identità e generalizzazione cross-dominio. Questi risultati stabiliscono Kling-Avatar come un nuovo punto di riferimento per la sintesi di avatar guidati dall'audio semanticamente fondata e ad alta fedeltà.
English
Recent advances in audio-driven avatar video generation have significantly
enhanced audio-visual realism. However, existing methods treat instruction
conditioning merely as low-level tracking driven by acoustic or visual cues,
without modeling the communicative purpose conveyed by the instructions. This
limitation compromises their narrative coherence and character expressiveness.
To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that
unifies multimodal instruction understanding with photorealistic portrait
generation. Our approach adopts a two-stage pipeline. In the first stage, we
design a multimodal large language model (MLLM) director that produces a
blueprint video conditioned on diverse instruction signals, thereby governing
high-level semantics such as character motion and emotions. In the second
stage, guided by blueprint keyframes, we generate multiple sub-clips in
parallel using a first-last frame strategy. This global-to-local framework
preserves fine-grained details while faithfully encoding the high-level intent
behind multimodal instructions. Our parallel architecture also enables fast and
stable generation of long-duration videos, making it suitable for real-world
applications such as digital human livestreaming and vlogging. To
comprehensively evaluate our method, we construct a benchmark of 375 curated
samples covering diverse instructions and challenging scenarios. Extensive
experiments demonstrate that Kling-Avatar is capable of generating vivid,
fluent, long-duration videos at up to 1080p and 48 fps, achieving superior
performance in lip synchronization accuracy, emotion and dynamic
expressiveness, instruction controllability, identity preservation, and
cross-domain generalization. These results establish Kling-Avatar as a new
benchmark for semantically grounded, high-fidelity audio-driven avatar
synthesis.