AdaptToken: Selezione Adattiva di Token basata sull'Entropia per la Comprensione di Video Lunghi nei MLLM

Abstract

La comprensione di video lunghi rimane una sfida per i Modelli Linguistici Multimodali di Grande Dimensione a causa degli elevati costi di memoria e dei limiti di lunghezza del contesto. Gli approcci precedenti mitigano questo problema assegnando un punggio e selezionando frame/token all'interno di clip brevi, ma mancano di un meccanismo principiato per (i) confrontare la rilevanza tra clip video distanti e (ii) interrompere l'elaborazione una volta raccolte prove sufficienti. Proponiamo AdaptToken, un framework senza necessità di addestramento che trasforma l'auto-incertezza di un MLLM in un segnale di controllo globale per la selezione dei token in video lunghi. AdaptToken suddivide un video in gruppi, estrae l'attenzione cross-modale per classificare i token all'interno di ciascun gruppo e utilizza l'entropia della risposta del modello per stimare la rilevanza di ciascun gruppo rispetto al prompt. Questo segnale di entropia consente un'allocazione globale del budget di token tra i gruppi e supporta ulteriormente l'arresto anticipato (AdaptToken-Lite), saltando i gruppi rimanenti quando il modello diventa sufficientemente certo. Su quattro benchmark per video lunghi (VideoMME, LongVideoBench, LVBench e MLVU) e su più MLLM di base (7B-72B), AdaptToken migliora costantemente l'accuratezza (ad esempio, +6.7 in media rispetto a Qwen2.5-VL 7B) e continua a trarre vantaggio da input estremamente lunghi (fino a 10.000 frame), mentre AdaptToken-Lite riduce il tempo di inferenza di circa la metà con prestazioni comparabili. Pagina del progetto: https://haozheqi.github.io/adapt-token

English

Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token

AdaptToken: Selezione Adattiva di Token basata sull'Entropia per la Comprensione di Video Lunghi nei MLLM

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

Abstract

Support