Генерация видео с авторегрессией без векторного квантования
Autoregressive Video Generation without Vector Quantization
December 18, 2024
Авторы: Haoge Deng, Ting Pan, Haiwen Diao, Zhengxiong Luo, Yufeng Cui, Huchuan Lu, Shiguang Shan, Yonggang Qi, Xinlong Wang
cs.AI
Аннотация
Этот документ представляет новый подход, который позволяет генерировать видео авторегрессионным способом с высокой эффективностью. Мы предлагаем переформулировать проблему генерации видео как авторегрессионное моделирование временного предсказания кадр за кадром без квантования и пространственного предсказания множества за множеством. В отличие от предсказания по растру в предыдущих авторегрессионных моделях или совместного моделирования распределения фиксированной длины токенов в моделях диффузии, наш подход сохраняет причинное свойство моделей в стиле GPT для гибких возможностей в контексте, одновременно используя двунаправленное моделирование внутри отдельных кадров для повышения эффективности. С использованием предложенного подхода мы обучаем новую авторегрессионную модель видео без векторного квантования, названную NOVA. Наши результаты показывают, что NOVA превосходит предыдущие авторегрессионные видео-модели по эффективности использования данных, скорости вывода, визуальной точности и плавности видео, даже при значительно меньшей емкости модели, т.е. 0,6 миллиарда параметров. NOVA также превосходит современные модели диффузии изображений в задачах генерации текста в изображения, с значительно более низкой стоимостью обучения. Кроме того, NOVA хорошо обобщается на продолжительные видео и позволяет разнообразные нулевые приложения в рамках одной объединенной модели. Код и модели доступны по адресу https://github.com/baaivision/NOVA.
English
This paper presents a novel approach that enables autoregressive video
generation with high efficiency. We propose to reformulate the video generation
problem as a non-quantized autoregressive modeling of temporal frame-by-frame
prediction and spatial set-by-set prediction. Unlike raster-scan prediction in
prior autoregressive models or joint distribution modeling of fixed-length
tokens in diffusion models, our approach maintains the causal property of
GPT-style models for flexible in-context capabilities, while leveraging
bidirectional modeling within individual frames for efficiency. With the
proposed approach, we train a novel video autoregressive model without vector
quantization, termed NOVA. Our results demonstrate that NOVA surpasses prior
autoregressive video models in data efficiency, inference speed, visual
fidelity, and video fluency, even with a much smaller model capacity, i.e.,
0.6B parameters. NOVA also outperforms state-of-the-art image diffusion models
in text-to-image generation tasks, with a significantly lower training cost.
Additionally, NOVA generalizes well across extended video durations and enables
diverse zero-shot applications in one unified model. Code and models are
publicly available at https://github.com/baaivision/NOVA.Summary
AI-Generated Summary