AdaptToken: Seleção Adaptativa de Tokens Baseada em Entropia para Compreensão de Vídeos Longos em MLLM
AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
March 30, 2026
Autores: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys
cs.AI
Resumo
A compreensão de vídeos longos continua a ser um desafio para os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) devido aos elevados custos de memória e aos limites de comprimento de contexto. As abordagens anteriores mitigam isto através da pontuação e seleção de frames/tokens dentro de clips curtos, mas carecem de um mecanismo fundamentado para (i) comparar a relevância entre clips de vídeo distantes e (ii) parar o processamento uma vez reunidas evidências suficientes. Propomos o AdaptToken, uma estrutura *training-free* que transforma a autoincerteza de um MLLM num sinal de controlo global para a seleção de tokens em vídeos longos. O AdaptToken divide um vídeo em grupos, extrai a atenção multimodal para classificar os tokens dentro de cada grupo e usa a entropia da resposta do modelo para estimar a relevância de cada grupo para o *prompt*. Este sinal de entropia permite uma alocação global do orçamento de tokens entre os grupos e suporta ainda a paragem antecipada (AdaptToken-Lite), saltando os grupos restantes quando o modelo se torna suficientemente certo. Em quatro *benchmarks* de vídeo longo (VideoMME, LongVideoBench, LVBench e MLVU) e múltiplos MLLMs base (7B-72B), o AdaptToken melhora consistentemente a precisão (ex: +6.7 em média sobre o Qwen2.5-VL 7B) e continua a beneficiar de entradas extremamente longas (até 10K *frames*), enquanto o AdaptToken-Lite reduz o tempo de inferência para cerca de metade com desempenho comparável. Página do projeto: https://haozheqi.github.io/adapt-token
English
Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token