FlashPortrait: Animación Infinita de Retratos 6 Veces Más Rápida con Predicción Adaptativa de Latentes
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
December 18, 2025
Autores: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu
cs.AI
Resumen
Los métodos actuales de aceleración basados en difusión para animación de retratos largos tienen dificultades para garantizar la consistencia de identidad (ID). Este artículo presenta FlashPortrait, un transformador de difusión de video de extremo a extremo capaz de sintetizar videos de longitud infinida que preservan la ID, logrando hasta una aceleración de 6x en la velocidad de inferencia. En particular, FlashPortrait comienza calculando las características de expresión facial independientes de la identidad mediante un extractor preexistente. Luego introduce un Bloque de Expresión Facial Normalizada para alinear las características faciales con los latentes de difusión mediante su normalización con sus respectivas medias y varianzas, mejorando así la estabilidad de identidad en el modelado facial. Durante la inferencia, FlashPortrait adopta un esquema dinámico de ventana deslizante con mezcla ponderada en áreas superpuestas, garantizando transiciones suaves y consistencia de ID en animaciones largas. En cada ventana contextual, basándose en la tasa de variación de latentes en pasos temporales específicos y la relación de magnitud derivada entre capas de difusión, FlashPortrait utiliza derivadas de latente de orden superior en el paso temporal actual para predecir directamente los latentes en pasos futuros, saltando así varios pasos de desruido y logrando una aceleración de velocidad de 6x. Los experimentos en benchmarks demuestran la efectividad de FlashPortrait tanto cualitativa como cuantitativamente.
English
Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.