Intégration du Contexte des Images d'Entrée dans les Modèles de Prédiction d'Image Suivante pour la Génération de Vidéos
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
April 17, 2025
Auteurs: Lvmin Zhang, Maneesh Agrawala
cs.AI
Résumé
Nous présentons une architecture de réseau neuronal, FramePack, pour entraîner des modèles de prédiction d'image suivante (ou de section d'image suivante) dans le cadre de la génération vidéo. FramePack compresse les images d'entrée afin de fixer la longueur du contexte du transformateur, indépendamment de la durée de la vidéo. En conséquence, nous sommes capables de traiter un grand nombre d'images en utilisant la diffusion vidéo avec un goulot d'étranglement de calcul similaire à celui de la diffusion d'images. Cela permet également d'augmenter significativement la taille des lots de vidéos lors de l'entraînement (les tailles de lots deviennent comparables à celles de l'entraînement par diffusion d'images). Nous proposons également une méthode d'échantillonnage anti-dérive qui génère les images dans un ordre temporel inversé avec des points finaux établis précocement pour éviter le biais d'exposition (accumulation d'erreurs sur les itérations). Enfin, nous montrons que les modèles de diffusion vidéo existants peuvent être affinés avec FramePack, et que leur qualité visuelle peut être améliorée car la prédiction d'image suivante permet d'utiliser des planificateurs de diffusion plus équilibrés avec des étapes temporelles de décalage de flux moins extrêmes.
English
We present a neural network structure, FramePack, to train next-frame (or
next-frame-section) prediction models for video generation. The FramePack
compresses input frames to make the transformer context length a fixed number
regardless of the video length. As a result, we are able to process a large
number of frames using video diffusion with computation bottleneck similar to
image diffusion. This also makes the training video batch sizes significantly
higher (batch sizes become comparable to image diffusion training). We also
propose an anti-drifting sampling method that generates frames in inverted
temporal order with early-established endpoints to avoid exposure bias (error
accumulation over iterations). Finally, we show that existing video diffusion
models can be finetuned with FramePack, and their visual quality may be
improved because the next-frame prediction supports more balanced diffusion
schedulers with less extreme flow shift timesteps.Summary
AI-Generated Summary