PersonaLive! Animazione Espressiva di Ritratti per lo Streaming Live
PersonaLive! Expressive Portrait Image Animation for Live Streaming
December 12, 2025
Autori: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI
Abstract
Gli attuali modelli di animazione ritrattistica basati su diffusione si concentrano prevalentemente sul miglioramento della qualità visiva e del realismo espressivo, trascurando la latenza di generazione e le prestazioni in tempo reale, il che ne limita l'applicabilità negli scenari di streaming live. Proponiamo PersonaLive, un innovativo framework basato su diffusione per l'animazione ritrattistica in streaming real-time, dotato di ricette di addestramento multi-stadio. Nello specifico, adottiamo inizialmente segnali ibridi impliciti, ovvero rappresentazioni facciali implicite e keypoint 3D impliciti, per ottenere un controllo espressivo del movimento a livello d'immagine. Successivamente, viene proposta una strategia di distillazione dell'aspetto con meno step per eliminare la ridondanza apparenziale nel processo di denoising, migliorando notevolmente l'efficienza inferenziale. Infine, introduciamo un paradigma di generazione in streaming micro-chunk autoregressivo, dotato di una strategia di addestramento a scorrimento e un meccanismo a frame chiave storici, per abilitare la generazione video a lungo termine a bassa latenza e stabile. Esperimenti estensivi dimostrano che PersonaLive raggiunge prestazioni all'avanguardia con un accelerazione fino a 7-22x rispetto ai precedenti modelli di animazione ritrattistica basati su diffusione.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.