ChatPaper.aiChatPaper

Eingaberahmenkontext in Next-Frame-Vorhersagemodellen für die Videogenerierung verpacken

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

April 17, 2025
Autoren: Lvmin Zhang, Maneesh Agrawala
cs.AI

Zusammenfassung

Wir stellen eine neuronale Netzwerkarchitektur namens FramePack vor, um Modelle für die Vorhersage des nächsten Bildes (oder des nächsten Bildabschnitts) für die Videogenerierung zu trainieren. FramePack komprimiert die Eingabebilder, um die Kontextlänge des Transformers auf eine feste Anzahl zu begrenzen, unabhängig von der Videolänge. Dadurch können wir eine große Anzahl von Bildern mit Video-Diffusion verarbeiten, wobei der Rechenaufwand ähnlich wie bei der Bild-Diffusion bleibt. Dies ermöglicht auch deutlich größere Trainings-Batch-Größen für Videos (die Batch-Größen werden mit denen des Bild-Diffusion-Trainings vergleichbar). Zudem schlagen wir eine Anti-Drifting-Sampling-Methode vor, die Bilder in umgekehrter zeitlicher Reihenfolge generiert, mit früh festgelegten Endpunkten, um Exposure Bias (Fehlerakkumulation über Iterationen) zu vermeiden. Schließlich zeigen wir, dass bestehende Video-Diffusion-Modelle mit FramePack feinabgestimmt werden können und ihre visuelle Qualität verbessert werden kann, da die Vorhersage des nächsten Bildes ausgewogenere Diffusionszeitpläne mit weniger extremen Flussverschiebungs-Zeitschritten unterstützt.
English
We present a neural network structure, FramePack, to train next-frame (or next-frame-section) prediction models for video generation. The FramePack compresses input frames to make the transformer context length a fixed number regardless of the video length. As a result, we are able to process a large number of frames using video diffusion with computation bottleneck similar to image diffusion. This also makes the training video batch sizes significantly higher (batch sizes become comparable to image diffusion training). We also propose an anti-drifting sampling method that generates frames in inverted temporal order with early-established endpoints to avoid exposure bias (error accumulation over iterations). Finally, we show that existing video diffusion models can be finetuned with FramePack, and their visual quality may be improved because the next-frame prediction supports more balanced diffusion schedulers with less extreme flow shift timesteps.

Summary

AI-Generated Summary

PDF483April 18, 2025