ChatPaper.aiChatPaper

Сохранение структур кадров при предварительном обучении в авторегрессионном сжатии видеопамяти

Pretraining Frame Preservation in Autoregressive Video Memory Compression

December 29, 2025
Авторы: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala
cs.AI

Аннотация

Мы представляем PFP — архитектуру нейронной сети для сжатия длинных видео в короткие контексты с явной целью предобучения: сохранение высокочастотных деталей отдельных кадров в произвольных временных позициях. Базовая модель способна сжимать 20-секундное видео в контекст длиной около 5 тыс. токенов, из которого можно извлекать случайные кадры с перцептивно сохранённым визуальным качеством. Такие предобученные модели могут быть напрямую дообучены в качестве кодировщиков памяти для авторегрессионных видео-моделей, обеспечивая долгосрочную память с низкой контекстной стоимостью и относительно малыми потерями точности. Мы оцениваем работу фреймворка в абляционных экспериментах и обсуждаем компромиссы возможных вариантов нейросетевых архитектур.
English
We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.
PDF51January 2, 2026