Aprendizaje para la inferencia adaptativa en modelos de lenguaje multimodal de gran escala
Learning to Inference Adaptively for Multimodal Large Language Models
March 13, 2025
Autores: Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en razonamiento, aunque conllevan un costo computacional sustancial, lo que limita su implementación en entornos con recursos restringidos. A pesar de los esfuerzos recientes para mejorar la eficiencia de los MLLMs, las soluciones anteriores no logran responder adecuadamente a las condiciones variables en tiempo de ejecución, en particular a la disponibilidad cambiante de recursos (por ejemplo, la contención debido a la ejecución de otros programas en el dispositivo). Para cerrar esta brecha, presentamos AdaLLaVA, un marco de inferencia adaptativo que aprende a reconfigurar dinámicamente las operaciones en un MLLM durante la inferencia, teniendo en cuenta los datos de entrada y un presupuesto de latencia. Realizamos experimentos exhaustivos en diversos benchmarks que involucran respuestas a preguntas, razonamiento y alucinaciones. Nuestros resultados muestran que AdaLLaVA se adhiere efectivamente al presupuesto de latencia de entrada, logrando diversos equilibrios entre precisión y latencia en tiempo de ejecución. Además, demostramos que AdaLLaVA se adapta tanto a la latencia como al contenido de la entrada, puede integrarse con la selección de tokens para mejorar la eficiencia y generaliza su funcionamiento en diferentes MLLMs. Nuestra página web del proyecto con el código liberado se encuentra en https://zhuoyan-xu.github.io/ada-llava/.
English
Multimodal Large Language Models (MLLMs) have shown impressive capabilities
in reasoning, yet come with substantial computational cost, limiting their
deployment in resource-constrained settings. Despite recent efforts on
improving the efficiency of MLLMs, prior solutions fall short in responding to
varying runtime conditions, in particular changing resource availability (e.g.,
contention due to the execution of other programs on the device). To bridge
this gap, we introduce AdaLLaVA, an adaptive inference framework that learns to
dynamically reconfigure operations in an MLLM during inference, accounting for
the input data and a latency budget. We conduct extensive experiments across
benchmarks involving question-answering, reasoning, and hallucination. Our
results show that AdaLLaVA effectively adheres to input latency budget,
achieving varying accuracy and latency tradeoffs at runtime. Further, we
demonstrate that AdaLLaVA adapts to both input latency and content, can be
integrated with token selection for enhanced efficiency, and generalizes across
MLLMs. Our project webpage with code release is at
https://zhuoyan-xu.github.io/ada-llava/.Summary
AI-Generated Summary