Previsão do Próximo Bloco: Geração de Vídeo por Modelagem Semi-Autoregressiva
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling
February 11, 2025
Autores: Shuhuai Ren, Shuming Ma, Xu Sun, Furu Wei
cs.AI
Resumo
A Previsão do Próximo Token (Next-Token Prediction, NTP) é uma abordagem de facto para a geração de vídeos autoregressivos (AR), mas sofre com dependências unidirecionais subótimas e velocidade de inferência lenta. Neste trabalho, propomos um framework semi-autoregressivo (semi-AR), denominado Previsão do Próximo Bloco (Next-Block Prediction, NBP), para a geração de vídeos. Ao decompor uniformemente o conteúdo do vídeo em blocos de tamanho igual (por exemplo, linhas ou quadros), deslocamos a unidade de geração de tokens individuais para blocos, permitindo que cada token no bloco atual preveja simultaneamente o token correspondente no próximo bloco. Diferentemente da modelagem AR tradicional, nosso framework emprega atenção bidirecional dentro de cada bloco, permitindo que os tokens capturem dependências espaciais mais robustas. Ao prever múltiplos tokens em paralelo, os modelos NBP reduzem significativamente o número de etapas de geração, resultando em inferência mais rápida e eficiente. Nosso modelo alcança pontuações FVD de 103,3 no UCF101 e 25,5 no K600, superando o modelo NTP básico em uma média de 4,4. Além disso, graças ao número reduzido de etapas de inferência, o modelo NBP gera 8,89 quadros (resolução 128x128) por segundo, alcançando uma aceleração de 11 vezes. Também exploramos escalas de modelo variando de 700M a 3B de parâmetros, observando melhorias significativas na qualidade de geração, com pontuações FVD caindo de 103,3 para 55,3 no UCF101 e de 25,5 para 19,5 no K600, demonstrando a escalabilidade de nossa abordagem.
English
Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR)
video generation, but it suffers from suboptimal unidirectional dependencies
and slow inference speed. In this work, we propose a semi-autoregressive
(semi-AR) framework, called Next-Block Prediction (NBP), for video generation.
By uniformly decomposing video content into equal-sized blocks (e.g., rows or
frames), we shift the generation unit from individual tokens to blocks,
allowing each token in the current block to simultaneously predict the
corresponding token in the next block. Unlike traditional AR modeling, our
framework employs bidirectional attention within each block, enabling tokens to
capture more robust spatial dependencies. By predicting multiple tokens in
parallel, NBP models significantly reduce the number of generation steps,
leading to faster and more efficient inference. Our model achieves FVD scores
of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an
average of 4.4. Furthermore, thanks to the reduced number of inference steps,
the NBP model generates 8.89 frames (128x128 resolution) per second, achieving
an 11x speedup. We also explored model scales ranging from 700M to 3B
parameters, observing significant improvements in generation quality, with FVD
scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600,
demonstrating the scalability of our approach.Summary
AI-Generated Summary