Het inpakken van context van invoerframes in modellen voor voorspelling van volgende frames bij videogeneratie
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
April 17, 2025
Auteurs: Lvmin Zhang, Maneesh Agrawala
cs.AI
Samenvatting
We presenteren een neuraal netwerkstructuur, FramePack, om next-frame (of next-frame-section) voorspellingsmodellen te trainen voor videogeneratie. De FramePack comprimeert invoerframes om de contextlengte van de transformer een vast aantal te maken, ongeacht de videolengte. Hierdoor kunnen we een groot aantal frames verwerken met videodiffusie met een rekenkundig knelpunt dat vergelijkbaar is met beelddiffusie. Dit maakt ook de trainingsbatchgroottes voor video aanzienlijk groter (batchgroottes worden vergelijkbaar met beelddiffusietraining). We stellen ook een anti-drifting bemonsteringsmethode voor die frames genereert in omgekeerde temporele volgorde met vroeg vastgestelde eindpunten om exposure bias (foutaccumulatie over iteraties) te voorkomen. Tot slot tonen we aan dat bestaande videodiffusiemodellen kunnen worden gefinetuned met FramePack, en dat hun visuele kwaliteit kan worden verbeterd omdat de next-frame voorspelling meer gebalanceerde diffusieschema's ondersteunt met minder extreme flow shift-tijdstappen.
English
We present a neural network structure, FramePack, to train next-frame (or
next-frame-section) prediction models for video generation. The FramePack
compresses input frames to make the transformer context length a fixed number
regardless of the video length. As a result, we are able to process a large
number of frames using video diffusion with computation bottleneck similar to
image diffusion. This also makes the training video batch sizes significantly
higher (batch sizes become comparable to image diffusion training). We also
propose an anti-drifting sampling method that generates frames in inverted
temporal order with early-established endpoints to avoid exposure bias (error
accumulation over iterations). Finally, we show that existing video diffusion
models can be finetuned with FramePack, and their visual quality may be
improved because the next-frame prediction supports more balanced diffusion
schedulers with less extreme flow shift timesteps.Summary
AI-Generated Summary