EverAnimate: Минутная анимация человека посредством восстановления латентного потока

Аннотация

Мы представляем EverAnimate — эффективный метод пост-обучения для генерации анимационных видео с длинным горизонтом, сохраняющий визуальное качество и идентичность персонажа. Длинная анимация остаётся сложной задачей, поскольку высокодинамичные движения человека должны синтезироваться на фоне относительно статичного окружения, что делает чанковую генерацию подверженной накопительному дрейфу: (i) дрейф низкоуровневого качества, например, прогрессирующая деградация статических фонов, и (ii) высокоуровневый семантический дрейф, такой как несогласованная идентичность персонажа и зависимые от ракурса атрибуты. Для решения этой проблемы EverAnimate восстанавливает дрейфующие траектории потока, привязывая генерацию к постоянной контекстной памяти в латентном пространстве, состоящей из двух взаимодополняющих механизмов. (i) Постоянное латентное распространение поддерживает контекстную память между чанками для распространения идентичности и движения в латентном пространстве, одновременно смягчая временное забывание. (ii) Восстановительное согласование потоков вводит неявную цель восстановления во время сэмплирования через регулировку скорости, улучшая точность внутри чанка. Только с помощью лёгкой настройки LoRA EverAnimate превосходит современные методы длинной анимации как в коротких, так и в длинных горизонтах: при 10 секундах он улучшает PSNR/SSIM на 8%/7% и снижает LPIPS/FID на 22%/11%; при 90 секундах прирост увеличивается до 15%/15% и 32%/27% соответственно.

English

We propose EverAnimate, an efficient post-training method for long-horizon animated video generation that preserves visual quality and character identity. Long-form animation remains challenging because highly dynamic human motion must be synthesized against relatively static environments, making chunk-based generation prone to accumulated drift: (i) low-level quality drift, such as progressive degradation of static backgrounds, and (ii) high-level semantic drift, such as inconsistent character identity and view-dependent attributes. To address this issue, EverAnimate restores drifted flow trajectories by anchoring generation to a persistent latent context memory, consisting of two complementary mechanisms. (i) Persistent Latent Propagation maintains a context memory across chunks to propagate identity and motion in latent space while mitigating temporal forgetting. (ii) Restorative Flow Matching introduces an implicit restoration objective during sampling through velocity adjustment, improving within-chunk fidelity. With only lightweight LoRA tuning, EverAnimate outperforms state-of-the-art long-animation methods in both short- and long-horizon settings: at 10 seconds, it improves PSNR/SSIM by 8%/7% and reduces LPIPS/FID by 22%/11%; at 90 seconds, the gains increase to 15%/15% and 32%/27%, respectively.