FlashPortrait: Animação Infinita de Retratos 6x Mais Rápida com Previsão Adaptativa de Latentes

Resumo

Os métodos atuais de aceleração baseados em difusão para animação de retratos longos enfrentam dificuldades em garantir a consistência da identidade (ID). Este artigo apresenta o FlashPortrait, um transformer de difusão de vídeo de ponta a ponta capaz de sintetizar vídeos de comprimento infinito que preservam a identidade, alcançando até 6x de aceleração na velocidade de inferência. Especificamente, o FlashPortrait começa calculando as características de expressão facial agnósticas à identidade com um extrator pré-treinado. Em seguida, introduz um Bloco de Expressão Facial Normalizada para alinhar as características faciais com os latentes de difusão através da sua normalização com as respectivas médias e variâncias, melhorando assim a estabilidade da identidade na modelagem facial. Durante a inferência, o FlashPortrait adota um esquema dinâmico de janela deslizante com mesclagem ponderada nas áreas sobrepostas, garantindo transições suaves e consistência de ID em animações longas. Em cada janela de contexto, com base na taxa de variação dos latentes em passos temporais específicos e na razão de magnitude da derivada entre as camadas de difusão, o FlashPortrait utiliza derivadas de latentes de ordem superior no passo temporal atual para prever diretamente os latentes em passos futuros, pulando assim várias etapas de remoção de ruído e alcançando aceleração de velocidade de 6x. Experimentos em benchmarks demonstram a eficácia do FlashPortrait tanto qualitativa quanto quantitativamente.

English

Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.