AdaptToken: Selección Adaptativa de Tokens Basada en Entropía para la Comprensión de Videos Largos en MLLM
AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
March 30, 2026
Autores: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys
cs.AI
Resumen
La comprensión de videos largos sigue siendo un desafío para los Modelos de Lenguaje Grandes Multimodales (MLLMs) debido a los altos costes de memoria y los límites de longitud de contexto. Los enfoques anteriores mitigan esto evaluando y seleccionando fotogramas/tokens dentro de clips cortos, pero carecen de un mecanismo fundamentado para (i) comparar la relevancia entre clips de video distantes y (ii) detener el procesamiento una vez se ha reunido evidencia suficiente. Proponemos AdaptToken, un marco de trabajo que no requiere entrenamiento y que convierte la auto-incertidumbre de un MLLM en una señal de control global para la selección de tokens en videos largos. AdaptToken divide un video en grupos, extrae la atención multimodal para clasificar los tokens dentro de cada grupo y utiliza la entropía de la respuesta del modelo para estimar la relevancia de cada grupo respecto al prompt. Esta señal de entropía permite una asignación global del presupuesto de tokens entre grupos y además permite una parada temprana (AdaptToken-Lite), omitiendo los grupos restantes cuando el modelo alcanza una certeza suficiente. En cuatro benchmarks de video largo (VideoMME, LongVideoBench, LVBench y MLVU) y múltiples MLLMs base (7B-72B), AdaptToken mejora consistentemente la precisión (ej., +6.7 de media sobre Qwen2.5-VL 7B) y sigue beneficiándose de entradas extremadamente largas (hasta 10K fotogramas), mientras que AdaptToken-Lite reduce el tiempo de inferencia aproximadamente a la mitad con un rendimiento comparable. Página del proyecto: https://haozheqi.github.io/adapt-token
English
Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token