ChatPaper.aiChatPaper

EverAnimate: Animação Humana em Escala de Minutos via Restauração de Fluxo Latente

EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

May 14, 2026
Autores: Wuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi
cs.AI

Resumo

Propomos o EverAnimate, um método eficiente de pós-treinamento para geração de vídeos animados de horizonte longo que preserva a qualidade visual e a identidade do personagem. A animação de longa duração continua desafiadora porque o movimento humano altamente dinâmico precisa ser sintetizado em ambientes relativamente estáticos, tornando a geração baseada em blocos propensa a deriva acumulada: (i) deriva de qualidade de baixo nível, como degradação progressiva de fundos estáticos, e (ii) deriva semântica de alto nível, como identidade inconsistente de personagens e atributos dependentes da visão. Para abordar esse problema, o EverAnimate restaura trajetórias de fluxo desviadas ao ancorar a geração em uma memória de contexto latente persistente, composta por dois mecanismos complementares. (i) A Propagação Latente Persistente mantém uma memória de contexto entre blocos para propagar identidade e movimento no espaço latente, mitigando o esquecimento temporal. (ii) O Casamento de Fluxo Restaurador introduz um objetivo de restauração implícito durante a amostragem por meio do ajuste de velocidade, melhorando a fidelidade intra-bloco. Com apenas um ajuste leve de LoRA, o EverAnimate supera os métodos de animação longa mais avançados tanto em cenários de horizonte curto quanto longo: em 10 segundos, melhora PSNR/SSIM em 8%/7% e reduz LPIPS/FID em 22%/11%; em 90 segundos, os ganhos aumentam para 15%/15% e 32%/27%, respectivamente.
English
We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.