FlashPortrait : Animation de portrait infinie 6 fois plus rapide grâce à une prédiction latente adaptative

Résumé

Les méthodes actuelles d'accélération par diffusion pour l'animation de portraits longs peinent à assurer la cohérence identitaire. Cet article présente FlashPortrait, un transformeur de vidéo par diffusion de bout en bout capable de synthétiser des vidéos de longueur infinie tout en préservant l'identité, avec une accélération d'inference pouvant atteindre 6x. FlashPortrait calcule d'abord les caractéristiques d'expression faciale indépendantes de l'identité à l'aide d'un extractor standard. Il introduit ensuite un Bloc d'Expression Faciale Normalisé pour aligner les caractéristiques faciales avec les latents de diffusion en les normalisant selon leurs moyennes et variances respectives, améliorant ainsi la stabilité identitaire dans la modélisation faciale. Lors de l'inférence, FlashPortrait adopte un schéma dynamique de fenêtre glissante avec fusion pondérée dans les zones de chevauchement, garantissant des transitions fluides et une cohérence identitaire dans les animations longues. Dans chaque fenêtre contextuelle, basée sur le taux de variation des latents à des étapes temporelles spécifiques et le rapport d'amplitude des dérivées entre les couches de diffusion, FlashPortrait utilise des dérivées latentes d'ordre supérieur à l'étape courante pour prédire directement les latents des étapes futures, sautant ainsi plusieurs étapes de débruitage et atteignant une accélération de vitesse 6x. Les expériences sur des benchmarks démontrent l'efficacité de FlashPortrait tant sur le plan qualitatif que quantitatif.

English

Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.

FlashPortrait : Animation de portrait infinie 6 fois plus rapide grâce à une prédiction latente adaptative

FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Résumé

Support