Inserimento del Contesto del Frame di Input nei Modelli di Predizione del Frame Successivo per la Generazione di Video
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
April 17, 2025
Autori: Lvmin Zhang, Maneesh Agrawala
cs.AI
Abstract
Presentiamo una struttura di rete neurale, FramePack, per addestrare modelli di previsione del frame successivo (o sezione di frame successiva) per la generazione di video. Il FramePack comprime i frame di input per rendere la lunghezza del contesto del transformer un numero fisso, indipendentemente dalla durata del video. Di conseguenza, siamo in grado di elaborare un gran numero di frame utilizzando la diffusione video con un collo di bottiglia computazionale simile a quello della diffusione di immagini. Ciò rende anche le dimensioni dei batch di addestramento video significativamente più grandi (le dimensioni dei batch diventano paragonabili a quelle dell'addestramento con diffusione di immagini). Proponiamo inoltre un metodo di campionamento anti-deriva che genera i frame in ordine temporale invertito con endpoint stabiliti in anticipo per evitare il bias di esposizione (accumulo di errori sulle iterazioni). Infine, dimostriamo che i modelli esistenti di diffusione video possono essere perfezionati con FramePack e che la loro qualità visiva può essere migliorata poiché la previsione del frame successivo supporta scheduler di diffusione più bilanciati con passaggi temporali di spostamento del flusso meno estremi.
English
We present a neural network structure, FramePack, to train next-frame (or
next-frame-section) prediction models for video generation. The FramePack
compresses input frames to make the transformer context length a fixed number
regardless of the video length. As a result, we are able to process a large
number of frames using video diffusion with computation bottleneck similar to
image diffusion. This also makes the training video batch sizes significantly
higher (batch sizes become comparable to image diffusion training). We also
propose an anti-drifting sampling method that generates frames in inverted
temporal order with early-established endpoints to avoid exposure bias (error
accumulation over iterations). Finally, we show that existing video diffusion
models can be finetuned with FramePack, and their visual quality may be
improved because the next-frame prediction supports more balanced diffusion
schedulers with less extreme flow shift timesteps.Summary
AI-Generated Summary