ChatPaper.aiChatPaper

AdaptToken: MLLM 장영상 이해를 위한 엔트로피 기반 적응형 토큰 선택

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

March 30, 2026
저자: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys
cs.AI

초록

장영상 이해는 높은 메모리 비용과 컨텍스트 길이 제한으로 인해 다중 모달 대규모 언어 모델(MLLM)에게 여전히 어려운 과제로 남아 있습니다. 기존 접근법은 짧은 클립 내에서 프레임/토큰을 평가하고 선택함으로써 이 문제를 완화했지만, (i) 서로 멀리 떨어진 비디오 클립 간의 관련성을 비교하고 (ii) 충분한 증거가 수집되면 처리를 중단할 수 있는 원칙적인 메커니즘을 갖추지 못했습니다. 우리는 MLLM의 자기 불확실성을 장영상 토큰 선택을 위한 글로벌 제어 신호로 전환하는 학습이 필요 없는 프레임워크인 AdaptToken을 제안합니다. AdaptToken은 비디오를 그룹으로 분할하고, 교차 모달 어텐션을 추출하여 각 그룹 내 토큰의 순위를 매긴 후, 모델의 응답 엔트로피를 사용하여 각 그룹의 프롬프트 관련성을 추정합니다. 이 엔트로피 신호는 그룹 전반에 걸친 글로벌 토큰 예산 할당을 가능하게 하며, 모델이 충분히 확신을 가지면 나머지 그룹을 건너뛰는 조기 중단(AdaptToken-Lite)을 추가로 지원합니다. 4개의 장영상 벤치마크(VideoMME, LongVideoBench, LVBench, MLVU)와 여러 기본 MLLM(7B-72B)에서 AdaptToken은 정확도를 꾸준히 향상시켰고(예: Qwen2.5-VL 7B 대비 평균 +6.7점), 극도로 긴 입력(최대 10,000 프레임)에서도 계속해서 이점을 보였으며, AdaptToken-Lite는 비슷한 성능으로 추론 시간을 약 절반으로 줄였습니다. 프로젝트 페이지: https://haozheqi.github.io/adapt-token
English
Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token
PDF31April 1, 2026