Прогнозирование следующего блока: генерация видео с помощью полуавторегрессионного моделирования.
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling
February 11, 2025
Авторы: Shuhuai Ren, Shuming Ma, Xu Sun, Furu Wei
cs.AI
Аннотация
Предсказание следующего токена (Next-Token Prediction, NTP) является фактическим подходом к авторегрессивной (AR) генерации видео, однако он страдает от неоптимальных однонаправленных зависимостей и медленной скорости вывода. В данной работе мы предлагаем полуавторегрессивную (semi-AR) структуру, названную Предсказание следующего блока (Next-Block Prediction, NBP), для генерации видео. Равномерно декомпозируя видеоконтент на блоки одинакового размера (например, строки или кадры), мы переносим единицу генерации отдельных токенов на блоки, позволяя каждому токену в текущем блоке одновременно предсказывать соответствующий токен в следующем блоке. В отличие от традиционного моделирования AR, наша структура использует двунаправленное внимание в каждом блоке, позволяя токенам захватывать более надежные пространственные зависимости. Предсказывая несколько токенов параллельно, модели NBP значительно сокращают количество шагов генерации, что приводит к более быстрому и эффективному выводу. Наша модель достигает показателей FVD на уровне 103.3 на UCF101 и 25.5 на K600, превосходя модель NTP на 4.4 в среднем. Благодаря сокращенному количеству шагов вывода, модель NBP генерирует 8.89 кадров (разрешение 128x128) в секунду, достигая ускорения в 11 раз. Мы также исследовали масштабы модели от 700M до 3B параметров, наблюдая значительные улучшения качества генерации, с показателями FVD снижающимися с 103.3 до 55.3 на UCF101 и с 25.5 до 19.5 на K600, демонстрируя масштабируемость нашего подхода.
English
Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR)
video generation, but it suffers from suboptimal unidirectional dependencies
and slow inference speed. In this work, we propose a semi-autoregressive
(semi-AR) framework, called Next-Block Prediction (NBP), for video generation.
By uniformly decomposing video content into equal-sized blocks (e.g., rows or
frames), we shift the generation unit from individual tokens to blocks,
allowing each token in the current block to simultaneously predict the
corresponding token in the next block. Unlike traditional AR modeling, our
framework employs bidirectional attention within each block, enabling tokens to
capture more robust spatial dependencies. By predicting multiple tokens in
parallel, NBP models significantly reduce the number of generation steps,
leading to faster and more efficient inference. Our model achieves FVD scores
of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an
average of 4.4. Furthermore, thanks to the reduced number of inference steps,
the NBP model generates 8.89 frames (128x128 resolution) per second, achieving
an 11x speedup. We also explored model scales ranging from 700M to 3B
parameters, observing significant improvements in generation quality, with FVD
scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600,
demonstrating the scalability of our approach.Summary
AI-Generated Summary