Генерация видео с авторегрессией без векторного квантования

Аннотация

Этот документ представляет новый подход, который позволяет генерировать видео авторегрессионным способом с высокой эффективностью. Мы предлагаем переформулировать проблему генерации видео как авторегрессионное моделирование временного предсказания кадр за кадром без квантования и пространственного предсказания множества за множеством. В отличие от предсказания по растру в предыдущих авторегрессионных моделях или совместного моделирования распределения фиксированной длины токенов в моделях диффузии, наш подход сохраняет причинное свойство моделей в стиле GPT для гибких возможностей в контексте, одновременно используя двунаправленное моделирование внутри отдельных кадров для повышения эффективности. С использованием предложенного подхода мы обучаем новую авторегрессионную модель видео без векторного квантования, названную NOVA. Наши результаты показывают, что NOVA превосходит предыдущие авторегрессионные видео-модели по эффективности использования данных, скорости вывода, визуальной точности и плавности видео, даже при значительно меньшей емкости модели, т.е. 0,6 миллиарда параметров. NOVA также превосходит современные модели диффузии изображений в задачах генерации текста в изображения, с значительно более низкой стоимостью обучения. Кроме того, NOVA хорошо обобщается на продолжительные видео и позволяет разнообразные нулевые приложения в рамках одной объединенной модели. Код и модели доступны по адресу https://github.com/baaivision/NOVA.

English

This paper presents a novel approach that enables autoregressive video generation with high efficiency. We propose to reformulate the video generation problem as a non-quantized autoregressive modeling of temporal frame-by-frame prediction and spatial set-by-set prediction. Unlike raster-scan prediction in prior autoregressive models or joint distribution modeling of fixed-length tokens in diffusion models, our approach maintains the causal property of GPT-style models for flexible in-context capabilities, while leveraging bidirectional modeling within individual frames for efficiency. With the proposed approach, we train a novel video autoregressive model without vector quantization, termed NOVA. Our results demonstrate that NOVA surpasses prior autoregressive video models in data efficiency, inference speed, visual fidelity, and video fluency, even with a much smaller model capacity, i.e., 0.6B parameters. NOVA also outperforms state-of-the-art image diffusion models in text-to-image generation tasks, with a significantly lower training cost. Additionally, NOVA generalizes well across extended video durations and enables diverse zero-shot applications in one unified model. Code and models are publicly available at https://github.com/baaivision/NOVA.

Генерация видео с авторегрессией без векторного квантования

Autoregressive Video Generation without Vector Quantization

Аннотация

Support