LiteFrame: Codificadores de Visão Eficientes Desbloqueiam o Escalonamento de Quadros em LLMs de Vídeo

Resumo

O desafio fundamental em escalar Modelos de Linguagem de Grande Escala para Vídeo (Video LLMs) para vídeos longos reside em gerenciar a explosão do comprimento do contexto de tokens visuais. As estratégias existentes concentram-se predominantemente na redução de tokens *post-hoc* – reduzindo tokens visuais após a extração de características para aliviar a sobrecarga computacional do LLM. Embora esses métodos reduzam efetivamente o número de tokens visuais, observamos que o principal gargalo de latência então se desloca do LLM para o caro processamento por quadro do codificador de visão. Para resolver isso, apresentamos o LiteFrame, um *backbone* de codificador de vídeo forte e altamente eficiente para Video LLMs. Para treinar o LiteFrame, propomos a Destilação de Tokens Comprimidos (CTD), uma nova estrutura de treinamento que ensina um codificador de visão aluno compacto a prever diretamente representações densas em informação e comprimidas espaço-temporalmente produzidas por um grande modelo de visão professor, contornando efetivamente a computação redundante. Quando combinada com uma Adaptação Adicional do Modelo de Linguagem (LMA), essa abordagem resulta em uma nova fronteira de Pareto de latência-precisão – em comparação com o InternVL3-8B, o LiteFrame proporciona uma redução de 35% na latência ponta a ponta enquanto processa 8 vezes mais quadros e melhora a precisão média de compreensão de vídeo em vários *benchmarks*. Nossos resultados demonstram um novo caminho potencial para viabilizar a compreensão de vídeos mais longos sob orçamentos computacionais fixos.

English

The fundamental challenge in scaling Video Large Language Models (Video LLMs) to long-form video lies in managing the explosion of visual-token context length. Existing strategies predominantly focus on "post-hoc" token reduction -- reducing visual tokens after feature extraction to alleviate the LLM's computational overhead. While these methods effectively reduce the number of visual tokens, we observe that the primary latency bottleneck then shifts from the LLM to the expensive per-frame processing of the vision encoder. To address this, we introduce LiteFrame, a strong, yet highly efficient video encoder backbone for Video LLMs. To train LiteFrame, we propose Compressed Token Distillation (CTD), a novel training framework that teaches a compact student vision encoder to directly predict information-dense, spatio-temporally compressed representations produced by a large teacher vision model, effectively bypassing redundant computation. When coupled with further Language Model Adaptation (LMA), this approach results in a new latency-accuracy Pareto frontier -- compared with InternVL3-8B, LiteFrame provides a 35% reduction in end-to-end latency while processing 8times more frames and improves average video understanding accuracy across multiple benchmarks. Our results demonstrate a new potential path to unlocking longer-form video understanding under fixed compute budgets.