Kling-Avatar: Multimodale instructies verankeren voor gelaagde synthese van langdurige avataranimaties
Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
September 11, 2025
Auteurs: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI
Samenvatting
Recente vooruitgang in audio-gestuurde avatar-videogeneratie heeft de audio-visuele realisme aanzienlijk verbeterd. Bestaande methoden behandelen instructieconditionering echter slechts als laag-niveau tracking gedreven door akoestische of visuele signalen, zonder het communicatieve doel van de instructies te modelleren. Deze beperking gaat ten koste van de narratieve samenhang en karakterexpressiviteit. Om deze kloof te overbruggen, introduceren we Kling-Avatar, een nieuw cascadeframework dat multimodale instructiebegrip verenigt met fotorealistische portretgeneratie. Onze aanpak volgt een tweestappenpijplijn. In de eerste fase ontwerpen we een multimodaal groot taalmodel (MLLM) regisseur dat een blauwdrukvideo produceert, geconditioneerd op diverse instructiesignalen, waardoor hoog-niveau semantiek zoals karakterbeweging en emoties wordt gestuurd. In de tweede fase, geleid door blauwdruk-keyframes, genereren we meerdere subclips parallel met behulp van een eerste-laatste frame strategie. Dit globaal-naar-lokaal framework behoudt fijnmazige details terwijl het de hoog-niveau intentie achter multimodale instructies trouw weergeeft. Onze parallelle architectuur maakt ook snelle en stabiele generatie van lange video's mogelijk, wat het geschikt maakt voor real-world toepassingen zoals digitale menselijke livestreams en vlogs. Om onze methode uitgebreid te evalueren, hebben we een benchmark opgebouwd van 375 gecureerde samples die diverse instructies en uitdagende scenario's omvatten. Uitgebreide experimenten tonen aan dat Kling-Avatar levendige, vloeiende, lange video's kan genereren tot 1080p en 48 fps, met superieure prestaties op het gebied van lip-synchronisatie nauwkeurigheid, emotie- en dynamische expressiviteit, instructiecontroleerbaarheid, identiteitsbehoud en cross-domein generalisatie. Deze resultaten vestigen Kling-Avatar als een nieuwe benchmark voor semantisch verankerde, hoogwaardige audio-gestuurde avatarsynthese.
English
Recent advances in audio-driven avatar video generation have significantly
enhanced audio-visual realism. However, existing methods treat instruction
conditioning merely as low-level tracking driven by acoustic or visual cues,
without modeling the communicative purpose conveyed by the instructions. This
limitation compromises their narrative coherence and character expressiveness.
To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that
unifies multimodal instruction understanding with photorealistic portrait
generation. Our approach adopts a two-stage pipeline. In the first stage, we
design a multimodal large language model (MLLM) director that produces a
blueprint video conditioned on diverse instruction signals, thereby governing
high-level semantics such as character motion and emotions. In the second
stage, guided by blueprint keyframes, we generate multiple sub-clips in
parallel using a first-last frame strategy. This global-to-local framework
preserves fine-grained details while faithfully encoding the high-level intent
behind multimodal instructions. Our parallel architecture also enables fast and
stable generation of long-duration videos, making it suitable for real-world
applications such as digital human livestreaming and vlogging. To
comprehensively evaluate our method, we construct a benchmark of 375 curated
samples covering diverse instructions and challenging scenarios. Extensive
experiments demonstrate that Kling-Avatar is capable of generating vivid,
fluent, long-duration videos at up to 1080p and 48 fps, achieving superior
performance in lip synchronization accuracy, emotion and dynamic
expressiveness, instruction controllability, identity preservation, and
cross-domain generalization. These results establish Kling-Avatar as a new
benchmark for semantically grounded, high-fidelity audio-driven avatar
synthesis.