自己回帰型ビデオメモリ圧縮における事前学習フレーム保存
Pretraining Frame Preservation in Autoregressive Video Memory Compression
December 29, 2025
著者: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala
cs.AI
要旨
本論文では、長時間ビデオを短いコンテキストに圧縮するニューラルネットワーク構造PFPを提案する。この手法は、任意の時間位置における単一フレームの高周波詳細を保持することを明示的な事前学習目標としている。ベースラインモデルは20秒のビデオを約5kトークン長のコンテキストに圧縮可能であり、ランダムに抽出したフレームを知覚的に劣化の少ない状態で復元できる。このように事前学習されたモデルは、オートレグレッシブ動画モデルのメモリエンコーダとして直接ファインチューニングが可能であり、低コンテキストコストかつ比較的高い忠実度で長時間の履歴記憶を実現する。本フレームワークについて削除実験による評価を行い、ニューラルネットワーク構造設計におけるトレードオフについて考察する。
English
We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.