ResAdapt: Resolución Adaptativa para un Razonamiento Multimodal Eficiente

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) logran una comprensión visual más sólida mediante el escalado de la fidelidad de entrada; sin embargo, el consiguiente crecimiento de tokens visuales hace prohibitivo mantener conjuntamente una alta resolución espacial y un contexto temporal prolongado. Sostenemos que el cuello de botella no reside en cómo se comprimen las representaciones posteriores a la codificación, sino en el volumen de píxeles que recibe el codificador, y lo abordamos con ResAdapt, un marco de Adaptación en el Lado de la Entrada que aprende cuánto presupuesto visual debe recibir cada fotograma antes de la codificación. ResAdapt acopla un Asignador ligero con un backbone de MLLM sin cambios, de modo que el backbone conserva su interfaz nativa de tokens visuales mientras recibe una entrada transformada por el operador. Formulamos la asignación como un problema de bandido contextual y entrenamos el Asignador con Optimización de Políticas Conscientes del Coste (CAPO), que convierte la retroalimentación dispersa de ejecución en una señal de aprendizaje estable de precisión-coste. En tareas de QA de vídeo con presupuesto controlado, grounding temporal y razonamiento sobre imágenes, ResAdapt mejora los puntos de operación de bajo presupuesto y a menudo se sitúa en o cerca de la frontera de eficiencia-precisión, con las ganancias más claras en benchmarks intensivos en razonamiento bajo compresión agresiva. Notablemente, ResAdapt admite hasta 16 veces más fotogramas con el mismo presupuesto visual, al tiempo que ofrece una mejora de rendimiento superior al 15%. El código está disponible en https://github.com/Xnhyacinth/ResAdapt.

English

Multimodal Large Language Models (MLLMs) achieve stronger visual understanding by scaling input fidelity, yet the resulting visual token growth makes jointly sustaining high spatial resolution and long temporal context prohibitive. We argue that the bottleneck lies not in how post-encoding representations are compressed but in the volume of pixels the encoder receives, and address it with ResAdapt, an Input-side adaptation framework that learns how much visual budget each frame should receive before encoding. ResAdapt couples a lightweight Allocator with an unchanged MLLM backbone, so the backbone retains its native visual-token interface while receiving an operator-transformed input. We formulate allocation as a contextual bandit and train the Allocator with Cost-Aware Policy Optimization (CAPO), which converts sparse rollout feedback into a stable accuracy-cost learning signal. Across budget-controlled video QA, temporal grounding, and image reasoning tasks, ResAdapt improves low-budget operating points and often lies on or near the efficiency-accuracy frontier, with the clearest gains on reasoning-intensive benchmarks under aggressive compression. Notably, ResAdapt supports up to 16x more frames at the same visual budget while delivering over 15% performance gain. Code is available at https://github.com/Xnhyacinth/ResAdapt.

ResAdapt: Resolución Adaptativa para un Razonamiento Multimodal Eficiente

ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

Resumen

Support