Vorbahaltung von Bildrahmen beim autoregressiven Videokompressionsspeicher
Pretraining Frame Preservation in Autoregressive Video Memory Compression
December 29, 2025
papers.authors: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala
cs.AI
papers.abstract
Wir stellen PFP vor, eine neuronale Netzwerkarchitektur zur Komprimierung langer Videos in kurze Kontexte, mit einem expliziten Pretraining-Ziel, hochfrequente Details einzelner Frames an beliebigen Zeitpositionen zu erhalten. Das Basismodell kann ein 20-Sekunden-Video in einen Kontext von etwa 5k Länge komprimieren, wobei zufällige Frames mit wahrnehmungstreu erhaltenen Erscheinungsbildern abgerufen werden können. Solche vortrainierten Modelle können direkt als Gedächtniskodierer für autoregressive Videomodelle feinabgestimmt werden, was Langzeiterinnerung mit geringen Kontextkosten und relativ geringem Qualitätsverlust ermöglicht. Wir evaluieren das Framework mit ablative Settings und diskutieren die Kompromisse möglicher neuronaler Architekturentwürfe.
English
We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.