AdaptToken : Sélection adaptative de tokens basée sur l'entropie pour la compréhension de vidéos longues par les MLLM

Résumé

La compréhension de vidéos longues reste un défi pour les modèles de langage multimodaux de grande taille (MLLM) en raison des coûts mémoire élevés et des limites de longueur de contexte. Les approches antérieures atténuent ce problème en évaluant et en sélectionnant des images/jetons dans de courts clips, mais elles manquent d'un mécanisme principié pour (i) comparer la pertinence entre des clips vidéo distants et (ii) arrêter le traitement une fois que des preuves suffisantes ont été recueillies. Nous proposons AdaptToken, un cadre sans entraînement qui transforme l'auto-incertitude d'un MLLM en un signal de contrôle global pour la sélection de jetons dans les vidéos longues. AdaptToken divise une vidéo en groupes, extrait l'attention multimodale pour classer les jetons au sein de chaque groupe, et utilise l'entropie de la réponse du modèle pour estimer la pertinence de chaque groupe par rapport à l'invite. Ce signal d'entropie permet une allocation globale du budget de jetons entre les groupes et soutient en outre l'arrêt anticipé (AdaptToken-Lite), en sautant les groupes restants lorsque le modèle devient suffisamment certain. Sur quatre benchmarks de vidéos longues (VideoMME, LongVideoBench, LVBench et MLVU) et plusieurs MLLM de base (7B-72B), AdaptToken améliore constamment la précision (par exemple, +6.7 en moyenne sur Qwen2.5-VL 7B) et continue de bénéficier d'entrées extrêmement longues (jusqu'à 10 000 images), tandis qu'AdaptToken-Lite réduit le temps d'inférence d'environ la moitié avec des performances comparables. Page du projet : https://haozheqi.github.io/adapt-token

English

Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token

AdaptToken : Sélection adaptative de tokens basée sur l'entropie pour la compréhension de vidéos longues par les MLLM

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

Résumé

Support