EverAnimate: Animación Humana a Escala de Minutos mediante Restauración de Flujo Latente

Resumen

Proponemos EverAnimate, un método eficiente de post-entrenamiento para la generación de video animado de horizonte largo que preserva la calidad visual y la identidad del personaje. La animación de larga duración sigue siendo un desafío porque el movimiento humano altamente dinámico debe sintetizarse en entornos relativamente estáticos, lo que hace que la generación basada en fragmentos sea propensa a la deriva acumulada: (i) deriva de calidad a bajo nivel, como la degradación progresiva de fondos estáticos, y (ii) deriva semántica de alto nivel, como la identidad inconsistente del personaje y atributos dependientes de la vista. Para abordar este problema, EverAnimate restaura las trayectorias de flujo desviadas anclando la generación a una memoria de contexto latente persistente, que consta de dos mecanismos complementarios. (i) Propagación Latente Persistente mantiene una memoria de contexto entre fragmentos para propagar la identidad y el movimiento en el espacio latente, mitigando el olvido temporal. (ii) Coincidencia de Flujo Restaurativo introduce un objetivo de restauración implícito durante el muestreo mediante el ajuste de velocidad, mejorando la fidelidad dentro del fragmento. Con solo un ajuste LoRA ligero, EverAnimate supera a los métodos de animación larga de última generación tanto en configuraciones de horizonte corto como largo: a los 10 segundos, mejora el PSNR/SSIM en un 8%/7% y reduce el LPIPS/FID en un 22%/11%; a los 90 segundos, las mejoras aumentan al 15%/15% y 32%/27%, respectivamente.

English

We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.