ChatPaper.aiChatPaper

SlowFast-VGen: Aprendizagem Lenta-Rápida para Geração de Vídeos Longos Impulsionados por Ações

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

October 30, 2024
Autores: Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Lingjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Yingnian Wu, Lijuan Wang
cs.AI

Resumo

Os seres humanos são dotados de um sistema de aprendizado complementar, que conecta a aprendizagem lenta da dinâmica geral do mundo com o armazenamento rápido da memória episódica de uma nova experiência. Modelos anteriores de geração de vídeo, no entanto, focam principalmente na aprendizagem lenta ao pré-treinar em vastas quantidades de dados, negligenciando a fase de aprendizado rápido crucial para o armazenamento da memória episódica. Essa omissão resulta em inconsistências entre quadros temporalmente distantes ao gerar vídeos mais longos, pois esses quadros ultrapassam a janela de contexto do modelo. Para isso, apresentamos o SlowFast-VGen, um novo sistema de aprendizado de dupla velocidade para geração de vídeos longos orientados por ações. Nossa abordagem incorpora um modelo de difusão de vídeo condicional mascarado para a aprendizagem lenta da dinâmica do mundo, juntamente com uma estratégia de aprendizado rápido no tempo baseada em um módulo temporal LoRA. Especificamente, o processo de aprendizado rápido atualiza seus parâmetros temporais LoRA com base em entradas e saídas locais, armazenando eficientemente a memória episódica em seus parâmetros. Propomos ainda um algoritmo de loop de aprendizado lento-rápido que integra de forma contínua o loop interno de aprendizado rápido no loop externo de aprendizado lento, permitindo a evocação de experiências multi-episódicas anteriores para aprendizado de habilidades consciente do contexto. Para facilitar a aprendizagem lenta de um modelo aproximado do mundo, coletamos um conjunto de dados em grande escala de 200k vídeos com anotações de ação em linguagem, abrangendo uma ampla gama de cenários. Experimentos extensos mostram que o SlowFast-VGen supera as bases em várias métricas para geração de vídeo orientada por ações, alcançando uma pontuação FVD de 514 em comparação com 782, e mantendo consistência em vídeos mais longos, com uma média de 0,37 cortes de cena versus 0,89. O algoritmo de loop de aprendizado lento-rápido melhora significativamente o desempenho em tarefas de planejamento de longo prazo também. Website do Projeto: https://slowfast-vgen.github.io
English
Human beings are endowed with a complementary learning system, which bridges the slow learning of general world dynamics with fast storage of episodic memory from a new experience. Previous video generation models, however, primarily focus on slow learning by pre-training on vast amounts of data, overlooking the fast learning phase crucial for episodic memory storage. This oversight leads to inconsistencies across temporally distant frames when generating longer videos, as these frames fall beyond the model's context window. To this end, we introduce SlowFast-VGen, a novel dual-speed learning system for action-driven long video generation. Our approach incorporates a masked conditional video diffusion model for the slow learning of world dynamics, alongside an inference-time fast learning strategy based on a temporal LoRA module. Specifically, the fast learning process updates its temporal LoRA parameters based on local inputs and outputs, thereby efficiently storing episodic memory in its parameters. We further propose a slow-fast learning loop algorithm that seamlessly integrates the inner fast learning loop into the outer slow learning loop, enabling the recall of prior multi-episode experiences for context-aware skill learning. To facilitate the slow learning of an approximate world model, we collect a large-scale dataset of 200k videos with language action annotations, covering a wide range of scenarios. Extensive experiments show that SlowFast-VGen outperforms baselines across various metrics for action-driven video generation, achieving an FVD score of 514 compared to 782, and maintaining consistency in longer videos, with an average of 0.37 scene cuts versus 0.89. The slow-fast learning loop algorithm significantly enhances performances on long-horizon planning tasks as well. Project Website: https://slowfast-vgen.github.io

Summary

AI-Generated Summary

PDF93November 16, 2024