Loong: Generación de videos largos a nivel de minutos con modelos de lenguaje autoregresivos
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
October 3, 2024
Autores: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI
Resumen
Es deseable pero desafiante generar videos largos ricos en contenido en una escala de minutos. Los grandes modelos de lenguaje autoregresivos (LLMs, por sus siglas en inglés) han logrado un gran éxito en la generación de secuencias coherentes y largas de tokens en el campo del procesamiento del lenguaje natural, mientras que la exploración de LLMs autoregresivos para la generación de videos se limita a la generación de videos cortos de varios segundos. En este trabajo, realizamos un análisis profundo de los desafíos que impiden a los generadores de videos basados en LLMs autoregresivos generar videos largos. Basándonos en las observaciones y análisis, proponemos Loong, un nuevo generador de videos basado en LLMs autoregresivos que puede generar videos de un minuto de duración. Específicamente, modelamos los tokens de texto y los tokens de video como una secuencia unificada para los LLMs autoregresivos y entrenamos el modelo desde cero. Proponemos un entrenamiento progresivo de corto a largo con un esquema de reponderación de pérdida para mitigar el problema de desequilibrio de pérdida en el entrenamiento de videos largos. Investigamos además estrategias de inferencia, incluyendo la re-codificación de tokens de video y estrategias de muestreo, para disminuir la acumulación de errores durante la inferencia. Nuestro Loong propuesto puede ser entrenado con videos de 10 segundos y ser extendido para generar videos largos de nivel de minutos condicionados a indicaciones de texto, como se demuestra en los resultados. Más muestras están disponibles en: https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the
scale of minutes. Autoregressive large language models (LLMs) have achieved
great success in generating coherent and long sequences of tokens in the domain
of natural language processing, while the exploration of autoregressive LLMs
for video generation is limited to generating short videos of several seconds.
In this work, we conduct a deep analysis of the challenges that prevent
autoregressive LLM-based video generators from generating long videos. Based on
the observations and analysis, we propose Loong, a new autoregressive LLM-based
video generator that can generate minute-long videos. Specifically, we model
the text tokens and video tokens as a unified sequence for autoregressive LLMs
and train the model from scratch. We propose progressive short-to-long training
with a loss re-weighting scheme to mitigate the loss imbalance problem for long
video training. We further investigate inference strategies, including video
token re-encoding and sampling strategies, to diminish error accumulation
during inference. Our proposed Loong can be trained on 10-second videos and be
extended to generate minute-level long videos conditioned on text prompts, as
demonstrated by the results. More samples are available at:
https://epiphqny.github.io/Loong-video.Summary
AI-Generated Summary