SlowFast-VGen: Медлительное-Быстрое Обучение для Генерации Длинных Видео, Основанных на Действиях
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
October 30, 2024
Авторы: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI
Аннотация
У человека есть дополнительная система обучения, которая соединяет медленное обучение общей динамике мира с быстрым сохранением эпизодической памяти из нового опыта. Однако предыдущие модели генерации видео в основном сосредотачивались на медленном обучении путем предварительного обучения на огромных объемах данных, игнорируя быструю фазу обучения, важную для сохранения эпизодической памяти. Это упущение приводит к несоответствиям между временно удаленными кадрами при создании более длинных видео, так как эти кадры выходят за контекстное окно модели. В этой связи мы представляем SlowFast-VGen, новую двухскоростную систему обучения для генерации длинных видео, ориентированных на действия. Наш подход включает в себя маскированную условную модель диффузии видео для медленного обучения динамике мира, наряду с стратегией быстрого обучения на этапе вывода, основанной на модуле временного LoRA. В частности, процесс быстрого обучения обновляет параметры временного LoRA на основе локальных входных и выходных данных, тем самым эффективно сохраняя эпизодическую память в своих параметрах. Мы также предлагаем алгоритм медленного-быстрого обучения, который плавно интегрирует внутренний цикл быстрого обучения во внешний медленный цикл обучения, обеспечивая вызов предыдущих мульти-эпизодических опытов для обучения навыкам с учетом контекста. Для облегчения медленного обучения приблизительной модели мира мы собрали крупномасштабный набор данных из 200 тыс. видео с аннотациями действий на языке, охватывающий широкий спектр сценариев. Обширные эксперименты показывают, что SlowFast-VGen превосходит базовые показатели по различным метрикам для генерации видео, ориентированной на действия, достигая значения FVD в 514 по сравнению с 782 и поддерживая последовательность в более длинных видео, среднее количество смен сцен - 0,37 против 0,89. Алгоритм медленного-быстрого обучения значительно улучшает производительность на задачах планирования с долгосрочным горизонтом. Веб-сайт проекта: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges
the slow learning of general world dynamics with fast storage of episodic
memory from a new experience. Previous video generation models, however,
primarily focus on slow learning by pre-training on vast amounts of data,
overlooking the fast learning phase crucial for episodic memory storage. This
oversight leads to inconsistencies across temporally distant frames when
generating longer videos, as these frames fall beyond the model's context
window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning
system for action-driven long video generation. Our approach incorporates a
masked conditional video diffusion model for the slow learning of world
dynamics, alongside an inference-time fast learning strategy based on a
temporal LoRA module. Specifically, the fast learning process updates its
temporal LoRA parameters based on local inputs and outputs, thereby efficiently
storing episodic memory in its parameters. We further propose a slow-fast
learning loop algorithm that seamlessly integrates the inner fast learning loop
into the outer slow learning loop, enabling the recall of prior multi-episode
experiences for context-aware skill learning. To facilitate the slow learning
of an approximate world model, we collect a large-scale dataset of 200k videos
with language action annotations, covering a wide range of scenarios. Extensive
experiments show that SlowFast-VGen outperforms baselines across various
metrics for action-driven video generation, achieving an FVD score of 514
compared to 782, and maintaining consistency in longer videos, with an average
of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm
significantly enhances performances on long-horizon planning tasks as well.
Project Website: https://slowfast-vgen.github.ioSummary
AI-Generated Summary