PersonaLive! Animação Expressiva de Retratos para Transmissões ao Vivo
PersonaLive! Expressive Portrait Image Animation for Live Streaming
December 12, 2025
Autores: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI
Resumo
Os modelos atuais de animação de retratos baseados em difusão concentram-se predominantemente na melhoria da qualidade visual e do realismo das expressões, negligenciando a latência de geração e o desempenho em tempo real, o que restringe sua aplicabilidade em cenários de transmissão ao vivo. Propomos o PersonaLive, uma nova estrutura baseada em difusão para animação de retratos em tempo real em streaming, com receitas de treinamento em múltiplos estágios. Especificamente, adotamos primeiro sinais implícitos híbridos, nomeadamente representações faciais implícitas e pontos-chave implícitos 3D, para alcançar um controle expressivo de movimento a nível de imagem. Em seguida, é proposta uma estratégia de destilação de aparência com menos etapas para eliminar a redundância aparente no processo de remoção de ruído, melhorando significativamente a eficiência da inferência. Por fim, introduzimos um paradigma de geração em streaming de micro-segmentos autorregressivos, equipado com uma estratégia de treinamento deslizante e um mecanismo de quadros-chave históricos, para permitir geração de vídeo de longo prazo com baixa latência e estabilidade. Experimentos extensivos demonstram que o PersonaLive alcança desempenho de ponta com aceleração de até 7-22x em relação aos modelos anteriores de animação de retratos baseados em difusão.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.