Preservación de Marcos en el Pretraining para la Compresión de Memoria de Video Autoregresiva
Pretraining Frame Preservation in Autoregressive Video Memory Compression
December 29, 2025
Autores: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala
cs.AI
Resumen
Presentamos PFP, una estructura de red neuronal para comprimir videos largos en contextos cortos, con un objetivo de preentrenamiento explícito que preserva los detalles de alta frecuencia de fotogramas individuales en posiciones temporales arbitrarias. El modelo base puede comprimir un video de 20 segundos en un contexto de aproximadamente 5k de longitud, desde el cual se pueden recuperar fotogramas aleatorios con apariencias perceptualmente preservadas. Estos modelos preentrenados pueden afinarse directamente como codificadores de memoria para modelos de video autoregresivos, permitiendo memoria de historial largo con bajo costo de contexto y una pérdida de fidelidad relativamente baja. Evaluamos el marco con configuraciones ablativas y discutimos las compensaciones de los posibles diseños de arquitecturas neuronales.
English
We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.