ChatPaper.aiChatPaper

Kling-Avatar: 다중 모달 명령어 기반의 계단식 장기 아바타 애니메이션 합성을 위한 기반 기술

Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

September 11, 2025
저자: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
cs.AI

초록

오디오 기반 아바타 비디오 생성 분야의 최근 발전은 오디오-비주얼 현실감을 크게 향상시켰습니다. 그러나 기존 방법들은 지시 조건을 단순히 음향 또는 시각적 단서에 의해 추적되는 저수준의 요소로만 다루며, 지시가 전달하는 의사소통 목적을 모델링하지 않습니다. 이러한 한계는 내러티브 일관성과 캐릭터 표현력을 저해합니다. 이러한 격차를 해소하기 위해, 우리는 다중모달 지시 이해와 사실적인 초상화 생성을 통합한 새로운 캐스케이드 프레임워크인 Kling-Avatar를 소개합니다. 우리의 접근 방식은 두 단계의 파이프라인을 채택합니다. 첫 번째 단계에서는 다양한 지시 신호를 기반으로 블루프린트 비디오를 생성하는 다중모달 대형 언어 모델(MLLM) 디렉터를 설계하여 캐릭터 동작과 감정과 같은 고수준의 의미를 제어합니다. 두 번째 단계에서는 블루프린트 키프레임의 지도를 받아, 첫 번째-마지막 프레임 전략을 사용하여 여러 하위 클립을 병렬로 생성합니다. 이 글로벌-로컬 프레임워크는 다중모달 지시 뒤에 숨은 고수준 의도를 충실히 인코딩하면서도 세밀한 디테일을 보존합니다. 우리의 병렬 아키텍처는 또한 장시간 비디오의 빠르고 안정적인 생성을 가능하게 하여 디지털 휴먼 라이브 스트리밍 및 블로깅과 같은 실제 응용에 적합합니다. 우리의 방법을 포괄적으로 평가하기 위해, 다양한 지시와 도전적인 시나리오를 포함한 375개의 선별된 샘플로 구성된 벤치마크를 구축했습니다. 광범위한 실험을 통해 Kling-Avatar가 최대 1080p 및 48 fps로 생생하고 유창한 장시간 비디오를 생성할 수 있으며, 입술 동기화 정확도, 감정 및 동적 표현력, 지시 제어성, 신원 보존, 그리고 크로스 도메인 일반화에서 우수한 성능을 달성함을 입증했습니다. 이러한 결과는 Kling-Avatar를 의미론적으로 근거를 둔 고품질 오디오 기반 아바타 합성의 새로운 벤치마크로 자리매김합니다.
English
Recent advances in audio-driven avatar video generation have significantly enhanced audio-visual realism. However, existing methods treat instruction conditioning merely as low-level tracking driven by acoustic or visual cues, without modeling the communicative purpose conveyed by the instructions. This limitation compromises their narrative coherence and character expressiveness. To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that unifies multimodal instruction understanding with photorealistic portrait generation. Our approach adopts a two-stage pipeline. In the first stage, we design a multimodal large language model (MLLM) director that produces a blueprint video conditioned on diverse instruction signals, thereby governing high-level semantics such as character motion and emotions. In the second stage, guided by blueprint keyframes, we generate multiple sub-clips in parallel using a first-last frame strategy. This global-to-local framework preserves fine-grained details while faithfully encoding the high-level intent behind multimodal instructions. Our parallel architecture also enables fast and stable generation of long-duration videos, making it suitable for real-world applications such as digital human livestreaming and vlogging. To comprehensively evaluate our method, we construct a benchmark of 375 curated samples covering diverse instructions and challenging scenarios. Extensive experiments demonstrate that Kling-Avatar is capable of generating vivid, fluent, long-duration videos at up to 1080p and 48 fps, achieving superior performance in lip synchronization accuracy, emotion and dynamic expressiveness, instruction controllability, identity preservation, and cross-domain generalization. These results establish Kling-Avatar as a new benchmark for semantically grounded, high-fidelity audio-driven avatar synthesis.
PDF342September 12, 2025