SlowFast-VGen: Aprendizagem Lenta-Rápida para Geração de Vídeos Longos Impulsionados por Ações
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation
October 30, 2024
Autores: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI
Resumo
Os seres humanos são dotados de um sistema de aprendizado complementar, que conecta a aprendizagem lenta da dinâmica geral do mundo com o armazenamento rápido da memória episódica de uma nova experiência. Modelos anteriores de geração de vídeo, no entanto, focam principalmente na aprendizagem lenta ao pré-treinar em vastas quantidades de dados, negligenciando a fase de aprendizado rápido crucial para o armazenamento da memória episódica. Essa omissão resulta em inconsistências entre quadros temporalmente distantes ao gerar vídeos mais longos, pois esses quadros ultrapassam a janela de contexto do modelo. Para isso, apresentamos o SlowFast-VGen, um novo sistema de aprendizado de dupla velocidade para geração de vídeos longos orientados por ações. Nossa abordagem incorpora um modelo de difusão de vídeo condicional mascarado para a aprendizagem lenta da dinâmica do mundo, juntamente com uma estratégia de aprendizado rápido no tempo baseada em um módulo temporal LoRA. Especificamente, o processo de aprendizado rápido atualiza seus parâmetros temporais LoRA com base em entradas e saídas locais, armazenando eficientemente a memória episódica em seus parâmetros. Propomos ainda um algoritmo de loop de aprendizado lento-rápido que integra de forma contínua o loop interno de aprendizado rápido no loop externo de aprendizado lento, permitindo a evocação de experiências multi-episódicas anteriores para aprendizado de habilidades consciente do contexto. Para facilitar a aprendizagem lenta de um modelo aproximado do mundo, coletamos um conjunto de dados em grande escala de 200k vídeos com anotações de ação em linguagem, abrangendo uma ampla gama de cenários. Experimentos extensos mostram que o SlowFast-VGen supera as bases em várias métricas para geração de vídeo orientada por ações, alcançando uma pontuação FVD de 514 em comparação com 782, e mantendo consistência em vídeos mais longos, com uma média de 0,37 cortes de cena versus 0,89. O algoritmo de loop de aprendizado lento-rápido melhora significativamente o desempenho em tarefas de planejamento de longo prazo também. Website do Projeto: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges
the slow learning of general world dynamics with fast storage of episodic
memory from a new experience. Previous video generation models, however,
primarily focus on slow learning by pre-training on vast amounts of data,
overlooking the fast learning phase crucial for episodic memory storage. This
oversight leads to inconsistencies across temporally distant frames when
generating longer videos, as these frames fall beyond the model's context
window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning
system for action-driven long video generation. Our approach incorporates a
masked conditional video diffusion model for the slow learning of world
dynamics, alongside an inference-time fast learning strategy based on a
temporal LoRA module. Specifically, the fast learning process updates its
temporal LoRA parameters based on local inputs and outputs, thereby efficiently
storing episodic memory in its parameters. We further propose a slow-fast
learning loop algorithm that seamlessly integrates the inner fast learning loop
into the outer slow learning loop, enabling the recall of prior multi-episode
experiences for context-aware skill learning. To facilitate the slow learning
of an approximate world model, we collect a large-scale dataset of 200k videos
with language action annotations, covering a wide range of scenarios. Extensive
experiments show that SlowFast-VGen outperforms baselines across various
metrics for action-driven video generation, achieving an FVD score of 514
compared to 782, and maintaining consistency in longer videos, with an average
of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm
significantly enhances performances on long-horizon planning tasks as well.
Project Website: https://slowfast-vgen.github.ioSummary
AI-Generated Summary