Loong: Generazione di video lunghi a livello di minuti con modelli di linguaggio autoregressivi
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
October 3, 2024
Autori: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI
Abstract
È auspicabile ma impegnativo generare video lunghi ricchi di contenuti della durata di alcuni minuti. I grandi modelli di linguaggio autoregressivi (LLM) hanno ottenuto un grande successo nella generazione di sequenze coerenti e lunghe di token nel campo dell'elaborazione del linguaggio naturale, mentre l'esplorazione dei LLM autoregressivi per la generazione di video si limita alla creazione di brevi video della durata di alcuni secondi. In questo lavoro, conduciamo un'analisi approfondita delle sfide che impediscono ai generatori di video basati su LLM autoregressivi di generare video lunghi. Sulla base delle osservazioni e dell'analisi, proponiamo Loong, un nuovo generatore di video basato su LLM autoregressivi in grado di generare video della durata di alcuni minuti. In particolare, modelliamo i token di testo e i token video come una sequenza unificata per i LLM autoregressivi e addestriamo il modello da zero. Proponiamo un addestramento progressivo da corto a lungo con un sistema di ripesatura della perdita per mitigare il problema dello squilibrio della perdita nell'addestramento dei video lunghi. Investigando ulteriormente le strategie di inferenza, inclusa la riconversione dei token video e le strategie di campionamento, per ridurre l'accumulo di errori durante l'inferenza. Il nostro Loong proposto può essere addestrato su video di 10 secondi e può essere esteso per generare video lunghi della durata di alcuni minuti condizionati da prompt di testo, come dimostrato dai risultati. Ulteriori campioni sono disponibili su: https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the
scale of minutes. Autoregressive large language models (LLMs) have achieved
great success in generating coherent and long sequences of tokens in the domain
of natural language processing, while the exploration of autoregressive LLMs
for video generation is limited to generating short videos of several seconds.
In this work, we conduct a deep analysis of the challenges that prevent
autoregressive LLM-based video generators from generating long videos. Based on
the observations and analysis, we propose Loong, a new autoregressive LLM-based
video generator that can generate minute-long videos. Specifically, we model
the text tokens and video tokens as a unified sequence for autoregressive LLMs
and train the model from scratch. We propose progressive short-to-long training
with a loss re-weighting scheme to mitigate the loss imbalance problem for long
video training. We further investigate inference strategies, including video
token re-encoding and sampling strategies, to diminish error accumulation
during inference. Our proposed Loong can be trained on 10-second videos and be
extended to generate minute-level long videos conditioned on text prompts, as
demonstrated by the results. More samples are available at:
https://epiphqny.github.io/Loong-video.