Conservazione della Struttura Temporale nel Pretraining per la Compressione Autoregressiva di Video in Memoria

Abstract

Presentiamo PFP, una struttura di rete neurale per comprimere video lunghi in contesti brevi, con un obiettivo di pre-addestramento esplicito volto a preservare i dettagli ad alta frequenza di singoli fotogrammi in posizioni temporali arbitrarie. Il modello baseline può comprimere un video di 20 secondi in un contesto di circa 5k token, da cui è possibile recuperare fotogrammi casuali con aspetti percettivamente preservati. Tali modelli pre-addestrati possono essere direttamente perfezionati come encoder di memoria per modelli video autoregressivi, consentendo memoria a lungo termine con basso costo computazionale e perdita di fedeltà relativamente contenuta. Valutiamo il framework con impostazioni ablative e discutiamo i compromessi delle possibili architetture neurali.

English

We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.

Conservazione della Struttura Temporale nel Pretraining per la Compressione Autoregressiva di Video in Memoria

Pretraining Frame Preservation in Autoregressive Video Memory Compression

Abstract

Support