ResAdapt: 효율적인 멀티모달 추론을 위한 적응형 해상도
ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning
March 30, 2026
저자: Huanxuan Liao, Zhongtao Jiang, Yupu Hao, Yuqiao Tan, Shizhu He, Jun Zhao, Kun Xu, Kang Liu
cs.AI
초록
멀티모달 대규모 언어 모델(MLLMs)은 입력 충실도를 확장하여 더 강력한 시각적 이해를 달성하지만, 이로 인한 시각 토큰의 증가는 높은 공간 해상도와 긴 시간적 맥락을 동시에 유지하는 것을 어렵게 만듭니다. 우리는 이러한 병목 현상이 인코딩 후 표현을 어떻게 압축하느냐에 있는 것이 아니라 인코더가 수신하는 픽셀 양에 있다고 주장하며, 인코딩 전 각 프레임이 얼마나 많은 시각 예산을 받아야 하는지를 학습하는 입력 측 적응 프레임워크인 ResAdapt로 이 문제를 해결합니다. ResAdapt는 경량의 할당자(Allocator)를 변경되지 않은 MLLM 백본과 결합하여 백본이 기본 시각 토큰 인터페이스를 유지하면서 연산자 변환된 입력을 수신하도록 합니다. 우리는 할당 문제를 맥락적 밴딧 문제로 공식화하고 희소한 롤아웃 피드백을 안정적인 정확도-비용 학습 신호로 변환하는 비용 인식 정책 최적화(CAPO)로 할당자를 학습시킵니다. 예산이 제어된 영상 질의응답, 시간적 근거 찾기, 이미지 추론 작업 전반에 걸쳐 ResAdapt는 낮은 예산 운영 지점을 개선하고 종종 효율성-정확도 경계에 있거나 그 근처에 위치하며, 특히 공격적인 압축 조건에서 추론 집약적인 벤치마크에서 가장 뚜렷한 성능 향상을 보입니다. 주목할 점은, ResAdapt가 동일한 시각 예산으로 최대 16배 더 많은 프레임을 지원하면서도 15% 이상의 성능 향상을 제공한다는 것입니다. 코드는 https://github.com/Xnhyacinth/ResAdapt에서 확인할 수 있습니다.
English
Multimodal Large Language Models (MLLMs) achieve stronger visual understanding by scaling input fidelity, yet the resulting visual token growth makes jointly sustaining high spatial resolution and long temporal context prohibitive. We argue that the bottleneck lies not in how post-encoding representations are compressed but in the volume of pixels the encoder receives, and address it with ResAdapt, an Input-side adaptation framework that learns how much visual budget each frame should receive before encoding. ResAdapt couples a lightweight Allocator with an unchanged MLLM backbone, so the backbone retains its native visual-token interface while receiving an operator-transformed input. We formulate allocation as a contextual bandit and train the Allocator with Cost-Aware Policy Optimization (CAPO), which converts sparse rollout feedback into a stable accuracy-cost learning signal. Across budget-controlled video QA, temporal grounding, and image reasoning tasks, ResAdapt improves low-budget operating points and often lies on or near the efficiency-accuracy frontier, with the clearest gains on reasoning-intensive benchmarks under aggressive compression. Notably, ResAdapt supports up to 16x more frames at the same visual budget while delivering over 15% performance gain. Code is available at https://github.com/Xnhyacinth/ResAdapt.