Loong: Het genereren van lange video's op minuutniveau met autoregressieve taalmodellen
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
October 3, 2024
Auteurs: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI
Samenvatting
Het is wenselijk maar uitdagend om inhoudsrijke lange video's op de schaal van minuten te genereren. Autoregressieve grote taalmodellen (LLM's) hebben grote successen behaald in het genereren van coherente en lange sequenties van tokens op het gebied van natuurlijke taalverwerking, terwijl de verkenning van autoregressieve LLM's voor videogeneratie beperkt is gebleven tot het genereren van korte video's van enkele seconden. In dit werk voeren we een diepgaande analyse uit van de uitdagingen die autoregressieve LLM-gebaseerde videogeneratoren belemmeren bij het genereren van lange video's. Op basis van de observaties en analyse stellen we Loong voor, een nieuwe autoregressieve LLM-gebaseerde videogenerator die minutenlange video's kan genereren. Specifiek modelleren we de teksttokens en videotokens als een geünificeerde sequentie voor autoregressieve LLM's en trainen het model vanaf nul. We stellen progressieve kort-naar-lang training voor met een verliesherwegingsschema om het probleem van verliesonevenwicht bij langdurige videotraining te verzachten. We onderzoeken verder inferentiestrategieën, waaronder video-token hercodering en bemonsteringsstrategieën, om foutenaccumulatie tijdens inferentie te verminderen. Onze voorgestelde Loong kan worden getraind op 10-seconden video's en worden uitgebreid om minutenlange video's te genereren op basis van tekstprompts, zoals gedemonstreerd door de resultaten. Meer voorbeelden zijn beschikbaar op: https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the
scale of minutes. Autoregressive large language models (LLMs) have achieved
great success in generating coherent and long sequences of tokens in the domain
of natural language processing, while the exploration of autoregressive LLMs
for video generation is limited to generating short videos of several seconds.
In this work, we conduct a deep analysis of the challenges that prevent
autoregressive LLM-based video generators from generating long videos. Based on
the observations and analysis, we propose Loong, a new autoregressive LLM-based
video generator that can generate minute-long videos. Specifically, we model
the text tokens and video tokens as a unified sequence for autoregressive LLMs
and train the model from scratch. We propose progressive short-to-long training
with a loss re-weighting scheme to mitigate the loss imbalance problem for long
video training. We further investigate inference strategies, including video
token re-encoding and sampling strategies, to diminish error accumulation
during inference. Our proposed Loong can be trained on 10-second videos and be
extended to generate minute-level long videos conditioned on text prompts, as
demonstrated by the results. More samples are available at:
https://epiphqny.github.io/Loong-video.Summary
AI-Generated Summary