SlowFast-VGen: Aprendizaje Lento-Rápido para la Generación de Videos Largos Dirigidos por Acciones
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
October 30, 2024
Autores: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI
Resumen
Los seres humanos están dotados de un sistema de aprendizaje complementario, que conecta el aprendizaje lento de la dinámica general del mundo con el almacenamiento rápido de la memoria episódica de una nueva experiencia. Sin embargo, los modelos previos de generación de video se centran principalmente en el aprendizaje lento mediante el preentrenamiento con grandes cantidades de datos, pasando por alto la fase de aprendizaje rápido crucial para el almacenamiento de la memoria episódica. Esta omisión conduce a inconsistencias entre fotogramas temporalmente distantes al generar videos más largos, ya que estos fotogramas quedan fuera de la ventana de contexto del modelo. Con este fin, presentamos SlowFast-VGen, un novedoso sistema de aprendizaje de doble velocidad para la generación de videos largos impulsados por acciones. Nuestro enfoque incorpora un modelo de difusión de video condicional enmascarado para el aprendizaje lento de la dinámica del mundo, junto con una estrategia de aprendizaje rápido en tiempo de inferencia basada en un módulo temporal LoRA. Específicamente, el proceso de aprendizaje rápido actualiza sus parámetros temporales LoRA en función de las entradas y salidas locales, almacenando eficientemente la memoria episódica en sus parámetros. Además, proponemos un algoritmo de bucle de aprendizaje lento-rápido que integra de manera fluida el bucle de aprendizaje rápido interno en el bucle de aprendizaje lento externo, permitiendo la recuperación de experiencias multi-episódicas anteriores para el aprendizaje de habilidades consciente del contexto. Para facilitar el aprendizaje lento de un modelo aproximado del mundo, recopilamos un conjunto de datos a gran escala de 200k videos con anotaciones de acciones en lenguaje, que cubren una amplia gama de escenarios. Experimentos extensos muestran que SlowFast-VGen supera a los modelos de referencia en diversas métricas para la generación de videos impulsados por acciones, logrando una puntuación FVD de 514 en comparación con 782, y manteniendo la consistencia en videos más largos, con un promedio de 0.37 cortes de escena frente a 0.89. El algoritmo de bucle de aprendizaje lento-rápido mejora significativamente el rendimiento en tareas de planificación a largo plazo. Sitio web del proyecto: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges
the slow learning of general world dynamics with fast storage of episodic
memory from a new experience. Previous video generation models, however,
primarily focus on slow learning by pre-training on vast amounts of data,
overlooking the fast learning phase crucial for episodic memory storage. This
oversight leads to inconsistencies across temporally distant frames when
generating longer videos, as these frames fall beyond the model's context
window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning
system for action-driven long video generation. Our approach incorporates a
masked conditional video diffusion model for the slow learning of world
dynamics, alongside an inference-time fast learning strategy based on a
temporal LoRA module. Specifically, the fast learning process updates its
temporal LoRA parameters based on local inputs and outputs, thereby efficiently
storing episodic memory in its parameters. We further propose a slow-fast
learning loop algorithm that seamlessly integrates the inner fast learning loop
into the outer slow learning loop, enabling the recall of prior multi-episode
experiences for context-aware skill learning. To facilitate the slow learning
of an approximate world model, we collect a large-scale dataset of 200k videos
with language action annotations, covering a wide range of scenarios. Extensive
experiments show that SlowFast-VGen outperforms baselines across various
metrics for action-driven video generation, achieving an FVD score of 514
compared to 782, and maintaining consistency in longer videos, with an average
of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm
significantly enhances performances on long-horizon planning tasks as well.
Project Website: https://slowfast-vgen.github.ioSummary
AI-Generated Summary