AdaCodec: Um Código Visual Preditivo para MLLMs de Vídeo

Resumo

O vídeo é temporalmente redundante: quadros adjacentes geralmente compartilham a maioria dos objetos, fundo e disposição. No entanto, os modelos multimodais de linguagem de grande escala para vídeo existentes (video MLLMs) geralmente codificam cada quadro amostrado como uma imagem RGB independente, fazendo com que tokens visuais repitam conteúdo já presente em quadros anteriores. Isso sugere uma interface de vídeo mais direta: enviar um quadro de referência completo apenas quando a cena não pode ser prevista com precisão a partir do contexto anterior e, caso contrário, transmitir uma descrição compacta das mudanças entre quadros. Chamamos essa interface de código visual preditivo e a instanciamos para video MLLMs como AdaCodec. O AdaCodec gasta tokens visuais completos em um quadro de referência apenas quando seu custo preditivo condicional é alto; caso contrário, codifica mudanças entre quadros, incluindo movimento e resíduos de predição, como tokens P compactos. Em todos os onze benchmarks, o AdaCodec supera a linha de base RGB por quadro do Qwen3-VL-8B com um orçamento de tokens visuais equivalente. Mesmo com 1/7 do orçamento, o AdaCodec com 32k tokens supera a linha de base de 224k em todos os benchmarks de vídeo longo; em cinco benchmarks de vídeo geral, ele aumenta a pontuação média enquanto reduz substancialmente o tempo até o primeiro token de 9,26s para 1,62s.

English

Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large language models (video MLLMs) usually encode each sampled frame as an independent RGB image, causing visual tokens to repeat content already present in earlier frames. This suggests a more direct video interface: send a full reference frame only when the scene cannot be predicted well from prior context, and otherwise transmit a compact description of inter-frame changes. We call this interface a predictive visual code, and instantiate it for video MLLMs as AdaCodec. AdaCodec spends full visual tokens on a reference frame only when its conditional predictive cost is high; otherwise, it encodes inter-frame changes, including motion and prediction residuals, as compact P-tokens. Across all eleven benchmarks, AdaCodec improves over the Qwen3-VL-8B per-frame RGB baseline at a matched visual-token budget. Even at 1/7 the budget, AdaCodec with 32k tokens surpasses the 224k baseline on all long-video benchmarks; on five general-video benchmarks, it raises the average score while substantially cutting time-to-first-token from 9.26s to 1.62s.