Loong: Generierung von Langvideos auf Minuten-Ebene mit autoregressiven Sprachmodellen
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
October 3, 2024
Autoren: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI
Zusammenfassung
Es ist wünschenswert, aber herausfordernd, inhaltsreiche lange Videos im Minutenbereich zu generieren. Autoregressive große Sprachmodelle (LLMs) haben große Erfolge bei der Generierung kohärenter und langer Sequenzen von Token im Bereich der natürlichen Sprachverarbeitung erzielt, während die Erforschung von autoregressiven LLMs für die Videogenerierung auf die Erzeugung kurzer Videos von wenigen Sekunden beschränkt ist. In dieser Arbeit führen wir eine eingehende Analyse der Herausforderungen durch, die autoregressive LLM-basierte Videogeneratoren daran hindern, lange Videos zu generieren. Basierend auf den Beobachtungen und Analysen schlagen wir Loong vor, einen neuen autoregressiven LLM-basierten Videogenerator, der Videos von einer Minute Länge generieren kann. Speziell modellieren wir die Text-Token und Video-Token als eine vereinheitlichte Sequenz für autoregressive LLMs und trainieren das Modell von Grund auf. Wir schlagen ein progressives Kurz-zu-Lang-Training mit einem Verlust-Neugewichtungsmechanismus vor, um das Problem des Verlustungleichgewichts beim Training langer Videos zu mildern. Wir untersuchen außerdem Inferenzstrategien, einschließlich der Neu-Codierung von Video-Token und Abtaststrategien, um Fehlerakkumulation während der Inferenz zu verringern. Unser vorgeschlagener Loong kann auf 10-Sekunden-Videos trainiert werden und kann erweitert werden, um minutenlange Videos auf Textvorgaben basierend zu generieren, wie die Ergebnisse zeigen. Weitere Beispiele sind verfügbar unter: https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the
scale of minutes. Autoregressive large language models (LLMs) have achieved
great success in generating coherent and long sequences of tokens in the domain
of natural language processing, while the exploration of autoregressive LLMs
for video generation is limited to generating short videos of several seconds.
In this work, we conduct a deep analysis of the challenges that prevent
autoregressive LLM-based video generators from generating long videos. Based on
the observations and analysis, we propose Loong, a new autoregressive LLM-based
video generator that can generate minute-long videos. Specifically, we model
the text tokens and video tokens as a unified sequence for autoregressive LLMs
and train the model from scratch. We propose progressive short-to-long training
with a loss re-weighting scheme to mitigate the loss imbalance problem for long
video training. We further investigate inference strategies, including video
token re-encoding and sampling strategies, to diminish error accumulation
during inference. Our proposed Loong can be trained on 10-second videos and be
extended to generate minute-level long videos conditioned on text prompts, as
demonstrated by the results. More samples are available at:
https://epiphqny.github.io/Loong-video.Summary
AI-Generated Summary