PersonaLive ! Animation d'image portrait expressive pour le streaming en direct
PersonaLive! Expressive Portrait Image Animation for Live Streaming
December 12, 2025
papers.authors: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI
papers.abstract
Les modèles actuels d'animation de portrait basés sur la diffusion se concentrent principalement sur l'amélioration de la qualité visuelle et du réalisme des expressions, tout en négligeant la latence de génération et les performances en temps réel, ce qui limite leur champ d'application dans le scénario du streaming en direct. Nous proposons PersonaLive, une nouvelle architecture basée sur la diffusion visant l'animation de portrait en streaming temps réel avec des stratégies d'entraînement multi-étapes. Plus précisément, nous adoptons d'abord des signaux implicites hybrides, à savoir des représentations faciales implicites et des points-clés 3D implicites, pour réaliser un contrôle expressif du mouvement au niveau de l'image. Ensuite, une stratégie de distillation d'apparence à moins d'étapes est proposée pour éliminer la redondance d'apparence dans le processus de débruitage, améliorant considérablement l'efficacité de l'inférence. Enfin, nous introduisons un paradigme de génération en streaming par micro-segments autorégressif, équipé d'une stratégie d'entraînement glissant et d'un mécanisme de trames-clés historiques, pour permettre une génération vidéo à faible latence et stable sur le long terme. Des expériences approfondies démontrent que PersonaLive atteint des performances de pointe avec une accélération allant jusqu'à 7-22x par rapport aux modèles précédents d'animation de portrait basés sur la diffusion.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.