AdaptToken: Entropiebasierte adaptive Token-Auswahl für das Langzeitvideo-Verständnis von MLLMs
AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
March 30, 2026
Autoren: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys
cs.AI
Zusammenfassung
Das Verständnis langer Videos bleibt für multimodale große Sprachmodelle (MLLMs) aufgrund hoher Speicherkosten und Kontextlängenbegrenzungen eine Herausforderung. Bisherige Ansätze mildern dies, indem sie Frames/Tokens innerhalb kurzer Clips bewerten und auswählen, aber ihnen fehlt ein prinzipieller Mechanismus, um (i) die Relevanz über weit entfernte Videoclips hinweg zu vergleichen und (ii) die Verarbeitung zu beenden, sobald ausreichend Evidenz gesammelt wurde. Wir schlagen AdaptToken vor, ein trainingsfreies Framework, das die Selbstunsicherheit eines MLLMs in ein globales Steuersignal für die Token-Auswahl in langen Videos umwandelt. AdaptToken unterteilt ein Video in Gruppen, extrahiert cross-modale Aufmerksamkeit, um Tokens innerhalb jeder Gruppe zu bewerten, und nutzt die Antwortentropie des Modells, um die Prompt-Relevanz jeder Gruppe abzuschätzen. Dieses Entropiesignal ermöglicht eine globale Token-Budget-Zuteilung über Gruppen hinweg und unterstützt zudem einen frühen Stopp (AdaptToken-Lite), bei dem die verbleibenden Gruppen übersprungen werden, sobald das Modell ausreichend sicher ist. Über vier Langvideo-Benchmarks (VideoMME, LongVideoBench, LVBench und MLVU) und mehrere Basis-MLLMs (7B–72B) hinweg verbessert AdaptToken konsistent die Genauigkeit (z.B. +6,7 im Durchschnitt gegenüber Qwen2,5-VL 7B) und profitiert weiterhin von extrem langen Eingaben (bis zu 10.000 Frames), während AdaptToken-Lite die Inferenzzeit bei vergleichbarer Leistung ungefähr halbiert. Projektseite: https://haozheqi.github.io/adapt-token
English
Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token