LiteFrame: Codificadores de visión eficientes desbloquean el escalado de fotogramas en los LLM de video

Resumen

El desafío fundamental en la escalabilidad de los Modelos de Lenguaje Extensos para Video (Video LLMs) hacia el video de larga duración radica en gestionar la explosión de la longitud de contexto de los tokens visuales. Las estrategias existentes se centran predominantemente en la reducción de tokens "post-hoc" — reducir los tokens visuales tras la extracción de características para aliviar la carga computacional del LLM. Si bien estos métodos reducen eficazmente la cantidad de tokens visuales, observamos que el principal cuello de botella de latencia se desplaza entonces del LLM al costoso procesamiento por fotograma del codificador visual. Para abordar esto, presentamos LiteFrame, un backbone de codificador visual robusto pero altamente eficiente para Video LLMs. Para entrenar LiteFrame, proponemos Destilación de Tokens Comprimidos (DTC), un novedoso marco de entrenamiento que enseña a un codificador visual compacto estudiante a predecir directamente representaciones comprimidas espaciotemporalmente y densas en información, producidas por un modelo visual docente de gran tamaño, evitando así eficazmente el cómputo redundante. Cuando se combina con una posterior Adaptación del Modelo de Lenguaje (AML), este enfoque da lugar a una nueva frontera de Pareto en latencia-precisión: en comparación con InternVL3-8B, LiteFrame proporciona una reducción del 35% en la latencia de extremo a extremo mientras procesa 8 veces más fotogramas y mejora la precisión media de comprensión de video en múltiples puntos de referencia. Nuestros resultados demuestran una nueva vía potencial para desbloquear la comprensión de video de mayor duración bajo presupuestos computacionales fijos.

English

The fundamental challenge in scaling Video Large Language Models (Video LLMs) to long-form video lies in managing the explosion of visual-token context length. Existing strategies predominantly focus on "post-hoc" token reduction -- reducing visual tokens after feature extraction to alleviate the LLM's computational overhead. While these methods effectively reduce the number of visual tokens, we observe that the primary latency bottleneck then shifts from the LLM to the expensive per-frame processing of the vision encoder. To address this, we introduce LiteFrame, a strong, yet highly efficient video encoder backbone for Video LLMs. To train LiteFrame, we propose Compressed Token Distillation (CTD), a novel training framework that teaches a compact student vision encoder to directly predict information-dense, spatio-temporally compressed representations produced by a large teacher vision model, effectively bypassing redundant computation. When coupled with further Language Model Adaptation (LMA), this approach results in a new latency-accuracy Pareto frontier -- compared with InternVL3-8B, LiteFrame provides a 35% reduction in end-to-end latency while processing 8times more frames and improves average video understanding accuracy across multiple benchmarks. Our results demonstrate a new potential path to unlocking longer-form video understanding under fixed compute budgets.