Préservation des trames en pré-apprentissage pour la compression vidéo autorégressive avec mémoire
Pretraining Frame Preservation in Autoregressive Video Memory Compression
December 29, 2025
papers.authors: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala
cs.AI
papers.abstract
Nous présentons PFP, une architecture de réseau neuronal permettant de compresser de longues vidéos en des contextes courts, avec un objectif de pré-entraînement explicite visant à préserver les détails haute fréquence de frames individuelles à des positions temporelles arbitraires. Le modèle de référence peut compresser une vidéo de 20 secondes en un contexte d'environ 5k tokens, à partir duquel des frames aléatoires peuvent être récupérées avec une apparence perceptuellement préservée. Ces modèles pré-entraînés peuvent être directement fine-tunés comme encodeurs de mémoire pour des modèles vidéo autorégressifs, permettant une mémoire à long historique avec un faible coût contextuel et une perte de fidélité relativement limitée. Nous évaluons le cadre proposé avec des configurations ablatives et discutons les compromis des conceptions architecturales neuronales possibles.
English
We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.