Empacotamento do Contexto de Quadros de Entrada em Modelos de Predição de Próximo Quadro para Geração de Vídeo

Resumo

Apresentamos uma estrutura de rede neural, o FramePack, para treinar modelos de previsão de próximo quadro (ou seção de próximo quadro) para geração de vídeo. O FramePack compacta os quadros de entrada para tornar o comprimento do contexto do transformer um número fixo, independentemente da duração do vídeo. Como resultado, conseguimos processar um grande número de quadros usando difusão de vídeo com um gargalo de computação semelhante ao da difusão de imagem. Isso também torna os tamanhos de lote de treinamento de vídeo significativamente maiores (os tamanhos de lote se tornam comparáveis ao treinamento de difusão de imagem). Também propomos um método de amostragem anti-deriva que gera quadros em ordem temporal invertida com pontos finais estabelecidos precocemente para evitar viés de exposição (acúmulo de erros ao longo das iterações). Por fim, mostramos que os modelos existentes de difusão de vídeo podem ser ajustados com o FramePack, e sua qualidade visual pode ser aprimorada, pois a previsão de próximo quadro suporta escalonadores de difusão mais equilibrados com etapas de deslocamento de fluxo menos extremas.

English

We present a neural network structure, FramePack, to train next-frame (or next-frame-section) prediction models for video generation. The FramePack compresses input frames to make the transformer context length a fixed number regardless of the video length. As a result, we are able to process a large number of frames using video diffusion with computation bottleneck similar to image diffusion. This also makes the training video batch sizes significantly higher (batch sizes become comparable to image diffusion training). We also propose an anti-drifting sampling method that generates frames in inverted temporal order with early-established endpoints to avoid exposure bias (error accumulation over iterations). Finally, we show that existing video diffusion models can be finetuned with FramePack, and their visual quality may be improved because the next-frame prediction supports more balanced diffusion schedulers with less extreme flow shift timesteps.

Empacotamento do Contexto de Quadros de Entrada em Modelos de Predição de Próximo Quadro para Geração de Vídeo

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Resumo

Summary

Support

Support