Loong : Génération de vidéos longues au niveau de la minute avec des modèles de langage autorégressifs
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
October 3, 2024
Auteurs: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI
Résumé
Il est souhaitable mais difficile de générer des vidéos longues riches en contenu à l'échelle de minutes. Les grands modèles de langage autorégressifs (LLM) ont réussi à générer avec succès des séquences cohérentes et longues de jetons dans le domaine du traitement du langage naturel, tandis que l'exploration des LLM autorégressifs pour la génération de vidéos se limite à la création de courtes vidéos de quelques secondes. Dans ce travail, nous menons une analyse approfondie des défis qui empêchent les générateurs de vidéos basés sur des LLM autorégressifs de produire des vidéos longues. Sur la base des observations et de l'analyse, nous proposons Loong, un nouveau générateur de vidéos basé sur des LLM autorégressifs capable de générer des vidéos d'une minute. Plus précisément, nous modélisons les jetons de texte et les jetons vidéo comme une séquence unifiée pour les LLM autorégressifs et entraînons le modèle à partir de zéro. Nous proposons un entraînement progressif de court à long avec un schéma de rééquilibrage des pertes pour atténuer le problème de déséquilibre des pertes lors de l'entraînement sur de longues vidéos. Nous examinons en outre des stratégies d'inférence, y compris le réencodage des jetons vidéo et les stratégies d'échantillonnage, pour réduire l'accumulation d'erreurs pendant l'inférence. Notre Loong proposé peut être entraîné sur des vidéos de 10 secondes et être étendu pour générer des vidéos longues d'une minute conditionnées par des indications de texte, comme le démontrent les résultats. Davantage d'échantillons sont disponibles sur : https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the
scale of minutes. Autoregressive large language models (LLMs) have achieved
great success in generating coherent and long sequences of tokens in the domain
of natural language processing, while the exploration of autoregressive LLMs
for video generation is limited to generating short videos of several seconds.
In this work, we conduct a deep analysis of the challenges that prevent
autoregressive LLM-based video generators from generating long videos. Based on
the observations and analysis, we propose Loong, a new autoregressive LLM-based
video generator that can generate minute-long videos. Specifically, we model
the text tokens and video tokens as a unified sequence for autoregressive LLMs
and train the model from scratch. We propose progressive short-to-long training
with a loss re-weighting scheme to mitigate the loss imbalance problem for long
video training. We further investigate inference strategies, including video
token re-encoding and sampling strategies, to diminish error accumulation
during inference. Our proposed Loong can be trained on 10-second videos and be
extended to generate minute-level long videos conditioned on text prompts, as
demonstrated by the results. More samples are available at:
https://epiphqny.github.io/Loong-video.Summary
AI-Generated Summary