ResAdapt: Resolução Adaptativa para Raciocínio Multimodal Eficiente
ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning
March 30, 2026
Autores: Huanxuan Liao, Zhongtao Jiang, Yupu Hao, Yuqiao Tan, Shizhu He, Jun Zhao, Kun Xu, Kang Liu
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançam uma compreensão visual mais forte através da escalabilidade da fidelidade de entrada, mas o consequente crescimento de tokens visuais torna proibitiva a manutenção conjunta de alta resolução espacial e longo contexto temporal. Argumentamos que o gargalo não está em como as representações pós-codificação são comprimidas, mas no volume de pixels que o codificador recebe, e abordamos isso com o ResAdapt, uma estrutura de adaptação no lado da entrada que apreende quanto orçamento visual cada frame deve receber antes da codificação. O ResAdapt acopla um Alocador leve a uma espinha dorsal de MLLM inalterada, permitindo que a espinha dorsal mantenha sua interface nativa de tokens visuais enquanto recebe uma entrada transformada pelo operador. Formulamos a alocação como um bandido contextual e treinamos o Alocador com Otimização de Política com Consciência de Custo (CAPO), que converte o feedback esparso de implantação em um sinal de aprendizado estável de precisão-custo. Em tarefas de Q&A de vídeo com orçamento controlado, ancoragem temporal e raciocínio de imagem, o ResAdapt melhora os pontos de operação de baixo orçamento e frequentemente situa-se na ou próxima à fronteira de eficiência-precisão, com ganhos mais claros em benchmarks intensivos em raciocínio sob compressão agressiva. Notavelmente, o ResAdapt suporta até 16x mais frames no mesmo orçamento visual enquanto proporciona um ganho de desempenho superior a 15%. O código está disponível em https://github.com/Xnhyacinth/ResAdapt.
English
Multimodal Large Language Models (MLLMs) achieve stronger visual understanding by scaling input fidelity, yet the resulting visual token growth makes jointly sustaining high spatial resolution and long temporal context prohibitive. We argue that the bottleneck lies not in how post-encoding representations are compressed but in the volume of pixels the encoder receives, and address it with ResAdapt, an Input-side adaptation framework that learns how much visual budget each frame should receive before encoding. ResAdapt couples a lightweight Allocator with an unchanged MLLM backbone, so the backbone retains its native visual-token interface while receiving an operator-transformed input. We formulate allocation as a contextual bandit and train the Allocator with Cost-Aware Policy Optimization (CAPO), which converts sparse rollout feedback into a stable accuracy-cost learning signal. Across budget-controlled video QA, temporal grounding, and image reasoning tasks, ResAdapt improves low-budget operating points and often lies on or near the efficiency-accuracy frontier, with the clearest gains on reasoning-intensive benchmarks under aggressive compression. Notably, ResAdapt supports up to 16x more frames at the same visual budget while delivering over 15% performance gain. Code is available at https://github.com/Xnhyacinth/ResAdapt.