EverAnimate : Animation humaine à l'échelle de la minute via la restauration du flux latent

Résumé

Nous proposons EverAnimate, une méthode de post-entraînement efficace pour la génération de vidéos animées sur de longs horizons, préservant la qualité visuelle et l'identité des personnages. L'animation de longue durée reste difficile car des mouvements humains très dynamiques doivent être synthétisés dans des environnements relativement statiques, rendant la génération par chunks sujette à une dérive accumulée : (i) dérive de qualité de bas niveau, telle que la dégradation progressive des arrière-plans statiques, et (ii) dérive sémantique de haut niveau, telle que l'identité incohérente des personnages et les attributs dépendants de la vue. Pour résoudre ce problème, EverAnimate restaure les trajectoires de flux dérivées en ancrant la génération à une mémoire de contexte latent persistante, composée de deux mécanismes complémentaires. (i) La propagation latente persistante maintient une mémoire de contexte entre les chunks pour propager l'identité et le mouvement dans l'espace latent tout en atténuant l'oubli temporel. (ii) L'appariement de flux restaurateur introduit un objectif de restauration implicite lors de l'échantillonnage par ajustement de la vélocité, améliorant la fidélité intra-chunk. Avec seulement un réglage LoRA léger, EverAnimate surpasse les méthodes de pointe en animation longue dans les contextes d'horizons courts et longs : à 10 secondes, il améliore le PSNR/SSIM de 8 %/7 % et réduit le LPIPS/FID de 22 %/11 % ; à 90 secondes, les gains augmentent respectivement à 15 %/15 % et 32 %/27 %.

English

We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.