자율 회귀 비디오 메모리 압축에서의 프리트레이닝 프레임 보존
Pretraining Frame Preservation in Autoregressive Video Memory Compression
December 29, 2025
저자: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala
cs.AI
초록
우리는 긴 동영상을 짧은 컨텍스트로 압축하는 신경망 구조인 PFP를 제안하며, 임의의 시간적 위치에서 단일 프레임의 고주파 디테일을 보존하는 명시적 사전 학습 목표를 갖춘 모델입니다. 기준 모델은 20초 길이의 동영상을 약 5k 길이의 컨텍스트로 압축할 수 있으며, 여기서 무작위 프레임을 지각적으로 보존된 외형으로 검색할 수 있습니다. 이러한 사전 학습된 모델은 자동회귀 비디오 모델을 위한 메모리 인코더로 직접 미세 조정될 수 있어, 낮은 컨텍스트 비용과 상대적으로 낮은 충실도 손실로 긴 기록 메모리를 가능하게 합니다. 우리는 이 프레임워크를 다양한 제어 실험 설정으로 평가하고 가능한 신경망 구조 설계의 절충점에 대해 논의합니다.
English
We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.