PersonaLive! 라이브 스트리밍을 위한 표현력豊かな 초상화 이미지 애니메이션
PersonaLive! Expressive Portrait Image Animation for Live Streaming
December 12, 2025
저자: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI
초록
현재의 확산 기반 초상화 애니메이션 모델은 시각적 품질과 표정 현실감 향상에 주로 초점을 맞추며, 생성 지연 시간과 실시간 성능을 간과하여 라이브 스트리밍 시나리오에서의 적용 범위를 제한하고 있습니다. 본 연구에서는 다단계 학습 레시피를 통해 실시간 스트리밍 초상화 애니메이션을 가능하게 하는 새로운 확산 기반 프레임워크인 PersonaLive를 제안합니다. 구체적으로, 우리는 먼저 암묵적 얼굴 표현과 3D 암묵 키포인트라는 하이브리드 암묵 신호를 도입하여 표현력 있는 이미지 수준의 모션 제어를 달성합니다. 그런 다음, 더 적은 단계의 외관 증류 전략을 제안하여 노이즈 제거 과정에서의 외관 중복성을 제거함으로써 추론 효율을 크게 향상시킵니다. 마지막으로, 슬라이딩 학습 전략과 역사적 키프레임 메커니즘을 갖춘 자기회귀적 마이크로 청크 스트리밍 생성 패러다임을 도입하여 낮은 지연 시간과 안정적인 장기 비디오 생성을 가능하게 합니다. 광범위한 실험을 통해 PersonaLive가 기존 확산 기반 초상화 애니메이션 모델 대비 최대 7-22배의 속도 향상과 함께 최첨단 성능을 달성함을 입증합니다.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.