Preservação da Estrutura de Quadros no Pré-treinamento para Compressão de Vídeo Autoregressiva

Resumo

Apresentamos o PFP, uma estrutura de rede neural para comprimir vídeos longos em contextos curtos, com um objetivo de pré-treinamento explícito de preservar os detalhes de alta frequência de frames individuais em posições temporais arbitrárias. O modelo de referência consegue comprimir um vídeo de 20 segundos em um contexto com aproximadamente 5k de comprimento, onde frames aleatórios podem ser recuperados com aparências perceptualmente preservadas. Esses modelos pré-treinados podem ser diretamente ajustados como codificadores de memória para modelos autoregressivos de vídeo, permitindo memória de histórico longo com baixo custo de contexto e perda de fidelidade relativamente baixa. Avaliamos a estrutura com configurações ablativas e discutimos os trade-offs de possíveis projetos de arquitetura neural.

English

We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.

Preservação da Estrutura de Quadros no Pré-treinamento para Compressão de Vídeo Autoregressiva

Pretraining Frame Preservation in Autoregressive Video Memory Compression

Resumo

Support