Empaquetamiento del Contexto del Marco de Entrada en Modelos de Predicción del Siguiente Marco para la Generación de Videos
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
April 17, 2025
Autores: Lvmin Zhang, Maneesh Agrawala
cs.AI
Resumen
Presentamos una estructura de red neuronal, FramePack, para entrenar modelos de predicción de siguiente fotograma (o sección de fotograma) en la generación de videos. FramePack comprime los fotogramas de entrada para que la longitud de contexto del transformador sea un número fijo, independientemente de la duración del video. Como resultado, podemos procesar un gran número de fotogramas utilizando difusión de video con un cuello de botella computacional similar al de la difusión de imágenes. Esto también permite que los tamaños de los lotes de entrenamiento de video sean significativamente mayores (los tamaños de los lotes se vuelven comparables a los del entrenamiento de difusión de imágenes). Además, proponemos un método de muestreo anti-deriva que genera fotogramas en orden temporal invertido con puntos finales establecidos tempranamente para evitar el sesgo de exposición (acumulación de errores a lo largo de las iteraciones). Finalmente, demostramos que los modelos existentes de difusión de video pueden ajustarse con FramePack, y su calidad visual puede mejorar, ya que la predicción de siguiente fotograma permite el uso de programadores de difusión más equilibrados con pasos de tiempo de cambio de flujo menos extremos.
English
We present a neural network structure, FramePack, to train next-frame (or
next-frame-section) prediction models for video generation. The FramePack
compresses input frames to make the transformer context length a fixed number
regardless of the video length. As a result, we are able to process a large
number of frames using video diffusion with computation bottleneck similar to
image diffusion. This also makes the training video batch sizes significantly
higher (batch sizes become comparable to image diffusion training). We also
propose an anti-drifting sampling method that generates frames in inverted
temporal order with early-established endpoints to avoid exposure bias (error
accumulation over iterations). Finally, we show that existing video diffusion
models can be finetuned with FramePack, and their visual quality may be
improved because the next-frame prediction supports more balanced diffusion
schedulers with less extreme flow shift timesteps.Summary
AI-Generated Summary