Loong: Генерация видеороликов продолжительностью в минуты с помощью авторегрессионных языковых моделей
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
October 3, 2024
Авторы: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
cs.AI
Аннотация
Желательно, но вызывает трудности создание видеороликов большой длины, на уровне минут. Авторегрессивные модели большого языка (LLM) достигли большого успеха в создании последовательностей токенов в области обработки естественного языка, однако исследования авторегрессивных LLM в области создания видео ограничены генерацией коротких видеороликов длительностью несколько секунд. В данной работе мы проводим глубокий анализ препятствий, мешающих авторегрессивным генераторам видео на основе LLM создавать длинные видеоролики. Основываясь на наблюдениях и анализе, мы предлагаем Loong, новый генератор видео на основе авторегрессивных LLM, способный создавать видеоролики длительностью в минуту. Конкретно, мы моделируем токены текста и видео как единую последовательность для авторегрессивных LLM и обучаем модель с нуля. Мы предлагаем пошаговое обучение от коротких к длинным видеороликам с использованием схемы переопределения потерь для смягчения проблемы дисбаланса потерь при обучении длинных видеороликов. Мы также исследуем стратегии вывода, включая повторное кодирование токенов видео и стратегии выборки, для уменьшения накопления ошибок во время вывода. Наш предложенный Loong может быть обучен на видеороликах длительностью 10 секунд и расширен для создания длинных видеороликов уровня минут, условно связанных с текстовыми подсказками, как продемонстрировано результатами. Больше примеров доступно по ссылке: https://epiphqny.github.io/Loong-video.
English
It is desirable but challenging to generate content-rich long videos in the
scale of minutes. Autoregressive large language models (LLMs) have achieved
great success in generating coherent and long sequences of tokens in the domain
of natural language processing, while the exploration of autoregressive LLMs
for video generation is limited to generating short videos of several seconds.
In this work, we conduct a deep analysis of the challenges that prevent
autoregressive LLM-based video generators from generating long videos. Based on
the observations and analysis, we propose Loong, a new autoregressive LLM-based
video generator that can generate minute-long videos. Specifically, we model
the text tokens and video tokens as a unified sequence for autoregressive LLMs
and train the model from scratch. We propose progressive short-to-long training
with a loss re-weighting scheme to mitigate the loss imbalance problem for long
video training. We further investigate inference strategies, including video
token re-encoding and sampling strategies, to diminish error accumulation
during inference. Our proposed Loong can be trained on 10-second videos and be
extended to generate minute-level long videos conditioned on text prompts, as
demonstrated by the results. More samples are available at:
https://epiphqny.github.io/Loong-video.Summary
AI-Generated Summary