ChatPaper.aiChatPaper

Loong: Gerando Vídeos Longos de Minutos com Modelos de Linguagem Autoregressivos

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

October 3, 2024
Autores: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI

Resumo

É desejável, mas desafiador, gerar vídeos longos ricos em conteúdo na escala de minutos. Modelos de linguagem autoregressivos de grande porte (LLMs) têm alcançado grande sucesso na geração de sequências longas e coerentes de tokens no domínio do processamento de linguagem natural, enquanto a exploração de LLMs autoregressivos para geração de vídeos se limita à criação de vídeos curtos de alguns segundos. Neste trabalho, realizamos uma análise aprofundada dos desafios que impedem os geradores de vídeos baseados em LLMs autoregressivos de produzir vídeos longos. Com base nas observações e análises, propomos Loong, um novo gerador de vídeos baseado em LLM autoregressivo que pode gerar vídeos de minutos de duração. Especificamente, modelamos os tokens de texto e os tokens de vídeo como uma sequência unificada para LLMs autoregressivos e treinamos o modelo do zero. Propomos um treinamento progressivo curto para longo com um esquema de reponderação de perdas para mitigar o problema de desequilíbrio de perdas no treinamento de vídeos longos. Investigamos ainda estratégias de inferência, incluindo a recodificação de tokens de vídeo e estratégias de amostragem, para diminuir a acumulação de erros durante a inferência. Nosso Loong proposto pode ser treinado em vídeos de 10 segundos e ser estendido para gerar vídeos longos de nível de minutos condicionados a prompts de texto, como demonstrado pelos resultados. Mais amostras estão disponíveis em: https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://epiphqny.github.io/Loong-video.

Summary

AI-Generated Summary

PDF383November 16, 2024