ChatPaper.aiChatPaper

Behoud van het Frame tijdens Voorafgaande Training in Autoregressieve Videogeheugencompressie

Pretraining Frame Preservation in Autoregressive Video Memory Compression

December 29, 2025
Auteurs: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala
cs.AI

Samenvatting

Wij presenteren PFP, een neuraal netwerkstructuur voor het comprimeren van lange video's tot korte contexten, met een expliciet pretrainingsdoel om de hoogfrequente details van individuele frames op willekeurige temporele posities te behouden. Het basismodel kan een video van 20 seconden comprimeren tot een context van ongeveer 5k tokens, waarbij willekeurige frames kunnen worden opgehaald met perceptueel behouden visuele kwaliteit. Dergelijke voorgetrainde modellen kunnen direct worden gefinetuned als geheugencoders voor autoregressieve videomodellen, waardoor langetermijngeheugen mogelijk wordt tegen lage contextkosten en relatief gering kwaliteitsverlies. Wij evalueren het framework met ablatie-instellingen en bespreken de afwegingen bij mogelijke neurale architectuurontwerpen.
English
We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.
PDF163January 4, 2026