FlashPortrait: 6x Snellere Oneindige Portretanimatie met Adaptieve Latente Voorspelling
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
December 18, 2025
Auteurs: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu
cs.AI
Samenvatting
Huidige op diffusie gebaseerde versnellingsmethoden voor lange portretanimaties hebben moeite met het garanderen van identiteitsconsistentie. Dit artikel presenteert FlashPortrait, een end-to-end videodiffusietransformer die in staat is om identiteit-behoudende, oneindig lange video's te synthetiseren met een versnelling van de inferentiesnelheid tot wel 6x. FlashPortrait begint met het berekenen van identiteits-agnostische gezichtsuitdrukkingskenmerken met een kant-en-klare extractor. Vervolgens introduceert het een Genormaliseerd Gezichtsuitdrukkingsblok om gezichtskenmerken uit te lijnen met diffusielatenten door ze te normaliseren met hun respectievelijke gemiddelden en varianties, waardoor de identiteitsstabiliteit in gezichtsmodellering wordt verbeterd. Tijdens inferentie gebruikt FlashPortrait een dynamisch schuifvensterschema met gewogen blending in overlappende gebieden, wat zorgt voor vloeiende overgangen en identiteitsconsistentie in lange animaties. In elk contextvenster gebruikt FlashPortrait, gebaseerd op de latentievariatiesnelheid op specifieke tijdstappen en de afgeleide-magnitudeverhouding tussen diffusielagen, hogere-orde latentie-afgeleiden op het huidige tijdstap om latenties op toekomstige tijdstappen direct te voorspellen, waardoor verschillende denoisestappen worden overgeslagen en een 6x snelheidsversnelling wordt bereikt. Experimenten op benchmarks tonen de effectiviteit van FlashPortrait zowel kwalitatief als kwantitatief aan.
English
Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.