FlashPortrait: 6-кратное ускорение бесконечной анимации портретов с адаптивным предсказанием в латентном пространстве
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
December 18, 2025
Авторы: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu
cs.AI
Аннотация
Современные методы ускорения диффузионных моделей для анимирования длинных портретов сталкиваются с проблемой сохранения идентичности (ID). В данной статье представлен FlashPortrait — эндо-энд видео-диффузионный трансформер, способный синтезировать видео неограниченной длины с сохранением идентичности, обеспечивая до 6-кратного ускорения инференса. В частности, FlashPortrait начинает с вычисления агностичных к идентичности признаков мимики с помощью готового экстрактора. Затем вводится блок нормализованных мимических признаков, который выравнивает лицевые особенности с латентными переменными диффузии путем их нормализации по средним значениям и дисперсиям, что повышает стабильность идентичности при моделировании лица. На этапе инференса FlashPortrait использует динамическую схему скользящего окна со взвешенным смешиванием в областях перекрытия, обеспечивая плавные переходы и консистентность ID в длинных анимациях. В каждом контекстном окне, на основе скорости изменения латентных переменных на определенных временных шагах и соотношения величин производных между слоями диффузии, модель использует производные высших порядков на текущем шаге для прямого предсказания латентных состояний на будущих шагах, пропуская несколько шагов шумоподавления и достигая 6-кратного ускорения. Эксперименты на бенчмарках демонстрируют эффективность FlashPortrait как качественно, так и количественно.
English
Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.