EverAnimate: Menselijke Animatie op Minuutschaal via Latent Flow Herstel
EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration
May 14, 2026
Auteurs: Wuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi
cs.AI
Samenvatting
Wij stellen EverAnimate voor, een efficiënte post-training methode voor geanimeerde videogeneratie met lange horizon die visuele kwaliteit en karakteridentiteit behoudt. Lange animaties blijven uitdagend omdat hoogdynamische menselijke bewegingen moeten worden gesynthetiseerd tegen relatief statische omgevingen, waardoor chunk-gebaseerde generatie vatbaar is voor opgestapelde drift: (i) kwaliteitsdrift op laag niveau, zoals progressieve degradatie van statische achtergronden, en (ii) semantische drift op hoog niveau, zoals inconsistente karakteridentiteit en aanzichtsafhankelijke attributen. Om dit probleem aan te pakken, herstelt EverAnimate afgedreven stroomtrajecten door generatie te verankeren aan een persistent latent contextgeheugen, bestaande uit twee complementaire mechanismen. (i) Persistent Latent Propagation onderhoudt een contextgeheugen over chunks heen om identiteit en beweging in de latente ruimte te propageren, terwijl temporeel vergeten wordt beperkt. (ii) Restorative Flow Matching introduceert een impliciete hersteldoelstelling tijdens sampling via snelheidsaanpassing, waardoor de getrouwheid binnen een chunk verbetert. Met alleen lichtgewicht LoRA-aanpassing presteert EverAnimate beter dan de nieuwste methoden voor lange animaties in zowel korte- als langehorizon-instellingen: bij 10 seconden verbetert het PSNR/SSIM met 8%/7% en vermindert het LPIPS/FID met 22%/11%; bij 90 seconden nemen de verbeteringen toe tot respectievelijk 15%/15% en 32%/27%.
English
We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.