Упаковка контекста входного кадра в моделях предсказания следующего кадра для генерации видео
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
April 17, 2025
Авторы: Lvmin Zhang, Maneesh Agrawala
cs.AI
Аннотация
Мы представляем структуру нейронной сети FramePack для обучения моделей прогнозирования следующего кадра (или следующего участка кадра) в задачах генерации видео. FramePack сжимает входные кадры, чтобы длина контекста трансформера оставалась фиксированной независимо от продолжительности видео. В результате мы можем обрабатывать большое количество кадров с использованием видео-диффузии, сохраняя вычислительные затраты на уровне, сопоставимом с диффузией изображений. Это также позволяет значительно увеличить размеры пакетов видео при обучении (размеры пакетов становятся сопоставимыми с обучением на изображениях). Мы также предлагаем метод сэмплирования, предотвращающий дрейф, который генерирует кадры в обратном временном порядке с заранее установленными конечными точками, чтобы избежать смещения из-за экспозиции (накопления ошибок на итерациях). Наконец, мы показываем, что существующие модели видео-диффузии можно дообучить с использованием FramePack, и их визуальное качество может быть улучшено, поскольку прогнозирование следующего кадра поддерживает более сбалансированные расписания диффузии с менее экстремальными сдвигами временных шагов потока.
English
We present a neural network structure, FramePack, to train next-frame (or
next-frame-section) prediction models for video generation. The FramePack
compresses input frames to make the transformer context length a fixed number
regardless of the video length. As a result, we are able to process a large
number of frames using video diffusion with computation bottleneck similar to
image diffusion. This also makes the training video batch sizes significantly
higher (batch sizes become comparable to image diffusion training). We also
propose an anti-drifting sampling method that generates frames in inverted
temporal order with early-established endpoints to avoid exposure bias (error
accumulation over iterations). Finally, we show that existing video diffusion
models can be finetuned with FramePack, and their visual quality may be
improved because the next-frame prediction supports more balanced diffusion
schedulers with less extreme flow shift timesteps.Summary
AI-Generated Summary