EverAnimate: Minutenlange menschliche Animation durch latente Fluss-Wiederherstellung

Zusammenfassung

Wir stellen EverAnimate vor, eine effiziente Post-Training-Methode zur langzeitanimierten Videogenerierung, die visuelle Qualität und Charakteridentität bewahrt. Langformatige Animation bleibt herausfordernd, da hochdynamische menschliche Bewegungen vor relativ statischen Umgebungen synthetisiert werden müssen, was die chunkbasierte Generierung anfällig für akkumuliertes Abdriften macht: (i) qualitatives Abdriften auf niedriger Ebene, wie die schrittweise Verschlechterung statischer Hintergründe, und (ii) semantisches Abdriften auf hoher Ebene, wie inkonsistente Charakteridentität und ansichtsabhängige Attribute. Um dieses Problem zu lösen, stellt EverAnimate abgedriftete Strömungstrajektorien wieder her, indem die Generierung an einen persistenten latenten Kontextspeicher gebunden wird, der aus zwei komplementären Mechanismen besteht. (i) Persistente latente Propagation bewahrt über Chunks hinweg einen Kontextspeicher, um Identität und Bewegung im latenten Raum zu propagieren und gleichzeitig zeitliches Vergessen abzuschwächen. (ii) Wiederherstellendes Fluss-Matching führt während des Samplings durch Geschwindigkeitsanpassung ein implizites Wiederherstellungsziel ein und verbessert so die Wiedergabetreue innerhalb der Chunks. Mit nur leichter LoRA-Feinabstimmung übertrifft EverAnimate modernste Langzeitanimationsverfahren sowohl in Kurzzeit- als auch in Langzeitszenarien: Bei 10 Sekunden verbessert es PSNR/SSIM um 8%/7% und reduziert LPIPS/FID um 22%/11%; bei 90 Sekunden steigen die Verbesserungen auf 15%/15% bzw. 32%/27%.

English

We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.