AdaptToken: MLLM長尺動画理解のためのエントロピーに基づく適応的トークン選択
AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
March 30, 2026
著者: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys
cs.AI
要旨
長映像理解は、メモリコストの高さとコンテキスト長の制約により、マルチモーダル大規模言語モデル(MLLM)にとって依然として課題である。従来手法は短いクリップ内でフレーム/トークンのスコアリングと選択を行うことでこの問題を緩和するが、(i)離れた映像クリップ間での関連性比較や、(ii)十分な証拠が得られた後の処理停止という原理的なメカニズムを欠いていた。本研究では、MLLMの自己不確実性を長映像トークン選択のためのグローバル制御信号に変換する学習不要フレームワークAdaptTokenを提案する。AdaptTokenは映像をグループ分割し、グループ内トークンを相互モーダル注意を用いてランク付けし、モデルの応答エントロピーを用いて各グループのプロンプト関連性を推定する。このエントロピー信号により、グループ間でのグローバルなトークン予算配分が可能となり、さらに早期停止(AdaptToken-Lite)を実現する。つまり、モデルが十分に確信を得た時点で残りのグループをスキップする。4つの長映像ベンチマーク(VideoMME、LongVideoBench、LVBench、MLVU)と複数のベースMLLM(7B-72B)において、AdaptTokenは精度を一貫して向上させ(例:Qwen2.5-VL 7Bで平均+6.7)、極めて長い入力(最大10,000フレーム)に対しても性能向上を持続させた。一方、AdaptToken-Liteは同等の性能を維持しつつ推論時間を約半減させた。プロジェクトページ:https://haozheqi.github.io/adapt-token
English
Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token