Apprendimento dell'inferenza adattiva per modelli linguistici multimodali di grandi dimensioni
Learning to Inference Adaptively for Multimodal Large Language Models
March 13, 2025
Autori: Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti nel ragionamento, ma comportano costi computazionali significativi, limitando il loro utilizzo in contesti con risorse limitate. Nonostante i recenti sforzi per migliorare l'efficienza degli MLLMs, le soluzioni precedenti non sono riuscite a rispondere adeguatamente alle condizioni di runtime variabili, in particolare alla disponibilità di risorse in cambiamento (ad esempio, la contesa dovuta all'esecuzione di altri programmi sul dispositivo). Per colmare questa lacuna, introduciamo AdaLLaVA, un framework di inferenza adattivo che impara a riconfigurare dinamicamente le operazioni in un MLLM durante l'inferenza, tenendo conto dei dati di input e di un budget di latenza. Abbiamo condotto esperimenti estesi su benchmark che coinvolgono risposte a domande, ragionamento e allucinazioni. I nostri risultati mostrano che AdaLLaVA aderisce efficacemente al budget di latenza di input, raggiungendo diversi compromessi tra accuratezza e latenza in tempo reale. Inoltre, dimostriamo che AdaLLaVA si adatta sia alla latenza di input che al contenuto, può essere integrato con la selezione di token per una maggiore efficienza e generalizza attraverso diversi MLLMs. La nostra pagina web del progetto con il rilascio del codice è disponibile all'indirizzo https://zhuoyan-xu.github.io/ada-llava/.
English
Multimodal Large Language Models (MLLMs) have shown impressive capabilities
in reasoning, yet come with substantial computational cost, limiting their
deployment in resource-constrained settings. Despite recent efforts on
improving the efficiency of MLLMs, prior solutions fall short in responding to
varying runtime conditions, in particular changing resource availability (e.g.,
contention due to the execution of other programs on the device). To bridge
this gap, we introduce AdaLLaVA, an adaptive inference framework that learns to
dynamically reconfigure operations in an MLLM during inference, accounting for
the input data and a latency budget. We conduct extensive experiments across
benchmarks involving question-answering, reasoning, and hallucination. Our
results show that AdaLLaVA effectively adheres to input latency budget,
achieving varying accuracy and latency tradeoffs at runtime. Further, we
demonstrate that AdaLLaVA adapts to both input latency and content, can be
integrated with token selection for enhanced efficiency, and generalizes across
MLLMs. Our project webpage with code release is at
https://zhuoyan-xu.github.io/ada-llava/.Summary
AI-Generated Summary