ChatPaper.aiChatPaper

Apprendimento dell'inferenza adattiva per modelli linguistici multimodali di grandi dimensioni

Learning to Inference Adaptively for Multimodal Large Language Models

March 13, 2025
Autori: Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti nel ragionamento, ma comportano costi computazionali significativi, limitando il loro utilizzo in contesti con risorse limitate. Nonostante i recenti sforzi per migliorare l'efficienza degli MLLMs, le soluzioni precedenti non sono riuscite a rispondere adeguatamente alle condizioni di runtime variabili, in particolare alla disponibilità di risorse in cambiamento (ad esempio, la contesa dovuta all'esecuzione di altri programmi sul dispositivo). Per colmare questa lacuna, introduciamo AdaLLaVA, un framework di inferenza adattivo che impara a riconfigurare dinamicamente le operazioni in un MLLM durante l'inferenza, tenendo conto dei dati di input e di un budget di latenza. Abbiamo condotto esperimenti estesi su benchmark che coinvolgono risposte a domande, ragionamento e allucinazioni. I nostri risultati mostrano che AdaLLaVA aderisce efficacemente al budget di latenza di input, raggiungendo diversi compromessi tra accuratezza e latenza in tempo reale. Inoltre, dimostriamo che AdaLLaVA si adatta sia alla latenza di input che al contenuto, può essere integrato con la selezione di token per una maggiore efficienza e generalizza attraverso diversi MLLMs. La nostra pagina web del progetto con il rilascio del codice è disponibile all'indirizzo https://zhuoyan-xu.github.io/ada-llava/.
English
Multimodal Large Language Models (MLLMs) have shown impressive capabilities in reasoning, yet come with substantial computational cost, limiting their deployment in resource-constrained settings. Despite recent efforts on improving the efficiency of MLLMs, prior solutions fall short in responding to varying runtime conditions, in particular changing resource availability (e.g., contention due to the execution of other programs on the device). To bridge this gap, we introduce AdaLLaVA, an adaptive inference framework that learns to dynamically reconfigure operations in an MLLM during inference, accounting for the input data and a latency budget. We conduct extensive experiments across benchmarks involving question-answering, reasoning, and hallucination. Our results show that AdaLLaVA effectively adheres to input latency budget, achieving varying accuracy and latency tradeoffs at runtime. Further, we demonstrate that AdaLLaVA adapts to both input latency and content, can be integrated with token selection for enhanced efficiency, and generalizes across MLLMs. Our project webpage with code release is at https://zhuoyan-xu.github.io/ada-llava/.

Summary

AI-Generated Summary

PDF42March 19, 2025