ChatPaper.aiChatPaper

AdaptToken: Entropie-gebaseerde Adaptieve Tokenselectie voor MLLM Lang Video Begrip

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

March 30, 2026
Auteurs: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys
cs.AI

Samenvatting

Het begrijpen van lange video's blijft een uitdaging voor Multimodale Large Language Models (MLLM's) vanwege hoge geheugenkosten en contextlengtebeperkingen. Eerdere benaderingen proberen dit te verlichten door frames/tokens binnen korte clips te scoren en te selecteren, maar zij missen een principieel mechanisme om (i) relevantie te vergelijken tussen ver uit elkaar liggende videoclips en (ii) te stoppen met verwerken zodra voldoende bewijs is verzameld. Wij stellen AdaptToken voor, een trainingsvrij framework dat de zelfonzekerheid van een MLLM omzet in een globaal controlesignaal voor de selectie van tokens in lange video's. AdaptToken splitst een video in groepen, extraheert cross-modale aandacht om tokens binnen elke groep te rangschikken, en gebruikt de entropie van het modelantwoord om de relevantie van elke groep voor de prompt in te schatten. Dit entropiesignaal maakt een globale toewijzing van het tokenbudget over groepen mogelijk en ondersteunt verder vroegtijdig stoppen (AdaptToken-Lite), waarbij de resterende groepen worden overgeslagen zodra het model voldoende zeker wordt. Over vier lange-videobenchmarks (VideoMME, LongVideoBench, LVBench en MLVU) en meerdere basis-MLLM's (7B-72B) verbetert AdaptToken consistent de nauwkeurigheid (bijv. gemiddeld +6,7 ten opzichte van Qwen2.5-VL 7B) en blijft het profiteren van extreem lange invoer (tot 10.000 frames), terwijl AdaptToken-Lite de inferentietijd ongeveer halveert met vergelijkbare prestaties. Projectpagina: https://haozheqi.github.io/adapt-token
English
Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token
PDF62April 17, 2026