ChatPaper.aiChatPaper

PersonaLive! Animación Expresiva de Retratos para Transmisiones en Vivo

PersonaLive! Expressive Portrait Image Animation for Live Streaming

December 12, 2025
Autores: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI

Resumen

Los modelos actuales de animación de retratos basados en difusión se centran predominantemente en mejorar la calidad visual y el realismo de las expresiones, mientras pasan por alto la latencia de generación y el rendimiento en tiempo real, lo que restringe su rango de aplicación en el escenario de transmisión en vivo. Proponemos PersonaLive, un novedoso marco basado en difusión para la animación de retratos en tiempo real en streaming, con recetas de entrenamiento multietapa. Específicamente, primero adoptamos señales implícitas híbridas, a saber, representaciones faciales implícitas y puntos clave implícitos 3D, para lograr un control de movimiento expresivo a nivel de imagen. Luego, se propone una estrategia de destilación de apariencia con menos pasos para eliminar la redundancia de apariencia en el proceso de eliminación de ruido, mejorando enormemente la eficiencia de inferencia. Finalmente, introducimos un paradigma de generación en streaming de microfragmentos autorregresivo equipado con una estrategia de entrenamiento deslizante y un mecanismo de fotogramas clave históricos para permitir una generación de video a largo plazo de baja latencia y estable. Experimentos exhaustivos demuestran que PersonaLive logra un rendimiento de vanguardia con una aceleración de hasta 7-22x sobre modelos previos de animación de retratos basados en difusión.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.
PDF252December 17, 2025