FlashPortrait: Animazione Ritratti Infinita 6 Volte Più Veloce con Predizione Adattiva del Latente

Abstract

Gli attuali metodi di accelerazione basati sulla diffusione per l'animazione di ritratti lunghi faticano a garantire la coerenza dell'identità (ID). Questo articolo presenta FlashPortrait, un trasformatore di diffusione video end-to-end in grado di sintetizzare video a lunghezza infinita che preservano l'identità, raggiungendo un'accelerazione della velocità di inferenza fino a 6 volte. In particolare, FlashPortrait inizia calcolando le caratteristiche dell'espressione facciale agnostiche all'identità mediante un estrattore preesistente. Introduce quindi un Blocco dell'Espressione Facciale Normalizzato per allineare le caratteristiche facciali con i latenti di diffusione normalizzandoli rispetto alle rispettive medie e varianze, migliorando così la stabilità dell'identità nella modellazione facciale. Durante l'inferenza, FlashPortrait adotta uno schema dinamico a finestra scorrevole con fusione pesata nelle aree sovrapposte, garantendo transizioni fluide e coerenza dell'ID nelle animazioni lunghe. In ogni finestra contestuale, basandosi sul tasso di variazione dei latenti a specifici step temporali e sul rapporto di magnitudine delle derivate tra gli strati di diffusione, FlashPortrait utilizza derivate latenti di ordine superiore allo step temporale corrente per prevedere direttamente i latenti agli step futuri, saltando così diversi step di denoising e raggiungendo un'accelerazione di velocità di 6 volte. Esperimenti su benchmark dimostrano l'efficacia di FlashPortrait sia qualitativamente che quantitativamente.

English

Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.

FlashPortrait: Animazione Ritratti Infinita 6 Volte Più Veloce con Predizione Adattiva del Latente

FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Abstract

Support