ResAdapt: Risoluzione Adattiva per un Ragionamento Multimodale Efficiente
ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning
March 30, 2026
Autori: Huanxuan Liao, Zhongtao Jiang, Yupu Hao, Yuqiao Tan, Shizhu He, Jun Zhao, Kun Xu, Kang Liu
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) ottengono una comprensione visiva più robusta scalando la fedeltà dell'input, tuttavia la conseguente crescita dei token visivi rende proibitivo mantenere congiuntamente un'alta risoluzione spaziale e un lungo contesto temporale. Sosteniamo che il collo di bottiglia non risieda nella compressione delle rappresentazioni post-codifica, ma nel volume di pixel che l'encoder riceve, e lo affrontiamo con ResAdapt, un framework di adattamento lato input che apprende quanto budget visivo ogni fotogramma dovrebbe ricevere prima della codifica. ResAdapt accoppia un Allocatore leggero con un backbone MLLM invariato, in modo che il backbone mantenga la sua interfaccia nativa per i token visivi mentre riceve un input trasformato dall'operatore. Formuliamo l'allocazione come un bandit contestuale e addestriamo l'Allocatore con l'Ottimizzazione delle Politiche Consapevole del Costo (CAPO), che converte il feedback sparso dei rollout in un segnale di apprendimento stabile tra accuratezza e costo. In varie attività con budget controllato, come QA video, grounding temporale e ragionamento su immagini, ResAdapt migliora i punti di funzionamento a basso budget e spesso si colloca su o vicino alla frontiera efficienza-accuratezza, con i guadagni più evidenti su benchmark intensivi di ragionamento sotto compressione aggressiva. Notevolmente, ResAdapt supporta fino a 16x più fotogrammi a parità di budget visivo fornendo al contempo un miglioramento delle prestazioni superiore al 15%. Il codice è disponibile all'indirizzo https://github.com/Xnhyacinth/ResAdapt.
English
Multimodal Large Language Models (MLLMs) achieve stronger visual understanding by scaling input fidelity, yet the resulting visual token growth makes jointly sustaining high spatial resolution and long temporal context prohibitive. We argue that the bottleneck lies not in how post-encoding representations are compressed but in the volume of pixels the encoder receives, and address it with ResAdapt, an Input-side adaptation framework that learns how much visual budget each frame should receive before encoding. ResAdapt couples a lightweight Allocator with an unchanged MLLM backbone, so the backbone retains its native visual-token interface while receiving an operator-transformed input. We formulate allocation as a contextual bandit and train the Allocator with Cost-Aware Policy Optimization (CAPO), which converts sparse rollout feedback into a stable accuracy-cost learning signal. Across budget-controlled video QA, temporal grounding, and image reasoning tasks, ResAdapt improves low-budget operating points and often lies on or near the efficiency-accuracy frontier, with the clearest gains on reasoning-intensive benchmarks under aggressive compression. Notably, ResAdapt supports up to 16x more frames at the same visual budget while delivering over 15% performance gain. Code is available at https://github.com/Xnhyacinth/ResAdapt.