PersonaLive! Expressieve Portretanimatie voor Live Streaming
PersonaLive! Expressive Portrait Image Animation for Live Streaming
December 12, 2025
Auteurs: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI
Samenvatting
Huidige op diffusie gebaseerde modellen voor portretanimatie richten zich voornamelijk op het verbeteren van de visuele kwaliteit en expressie-realisme, waarbij de generatielatentie en realtime prestaties worden veronachtzaamd. Dit beperkt hun toepassingsbereik in live-streamingscenario's. Wij presenteren PersonaLive, een nieuw op diffusie gebaseerd raamwerk voor realtime portretanimatie tijdens streamen, met multi-fase trainingsrecepten. Concreet hanteren we eerst hybride impliciete signalen, namelijk impliciete gelaatsrepresentaties en 3D-impliciete keypoints, om expressieve beeldniveau-bewegingscontrole te bereiken. Vervolgens wordt een strategie voor appearance-distillatie met minder stappen voorgesteld om redundantie in het denoisingsproces te elimineren, wat de inferentie-efficiëntie aanzienlijk verbetert. Ten slotte introduceren we een autoregressief micro-chunk streaming-generatieparadigma, uitgerust met een glijdende trainingsstrategie en een historisch keyframe-mechanisme, om langetermijnvideogeneratie met lage latentie en stabiliteit mogelijk te maken. Uitgebreide experimenten tonen aan dat PersonaLive state-of-the-art prestaties levert met een versnelling tot 7-22x ten opzichte van eerdere op diffusie gebaseerde portretanimatiemodellen.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.