FlashPortrait: 6-fach schnellere unendliche Porträtanimation mit adaptiver latenter Vorhersage
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
December 18, 2025
papers.authors: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu
cs.AI
papers.abstract
Aktuelle diffusionsbasierte Beschleunigungsmethoden für die Animation langer Porträtsequenzen haben Schwierigkeiten, die Identitätskonsistenz (ID) sicherzustellen. Dieser Artikel stellt FlashPortrait vor, einen end-to-end Video-Diffusion-Transformer, der in der Lage ist, identitätserhaltende, unendlich lange Videos zu synthetisieren und dabei eine bis zu 6-fache Beschleunigung der Inferenzgeschwindigkeit zu erreichen. Insbesondere beginnt FlashPortrait mit der Berechnung identitätsunabhängiger Gesichtsausdrucksmerkmale mittels eines vorgefertigten Extraktors. Anschließend wird ein normalisierter Gesichtsausdrucksblock eingeführt, um Gesichtsmerkmale mit Diffusions-Latents abzugleichen, indem diese mit ihren jeweiligen Mittelwerten und Varianzen normalisiert werden, was die Identitätsstabilität in der Gesichtsmodellierung verbessert. Während der Inferenz verwendet FlashPortrait ein dynamisches Schiebefenster-Verfahren mit gewichteter Überblendung in überlappenden Bereichen, um fließende Übergänge und ID-Konsistenz in langen Animationen zu gewährleisten. In jedem Kontextfenster nutzt FlashPortrait basierend auf der Latent-Variationsrate zu bestimmten Zeitschritten und dem Ableitungsgradverhältnis zwischen Diffusionsschichten höhergradige Latent-Ableitungen zum aktuellen Zeitschritt, um Latents zukünftiger Zeitschritte direkt vorherzusagen, wodurch mehrere Entrauschungsschritte übersprungen und eine 6-fache Geschwindigkeitssteigerung erreicht werden. Experimente auf Benchmarks zeigen die Wirksamkeit von FlashPortrait sowohl qualitativ als auch quantitativ.
English
Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.