TimeBill: Inferenza a Budget di Tempo per i Grandi Modelli Linguistici

Abstract

I Large Language Model (LLM) sono sempre più impiegati in sistemi time-critical, come la robotica, la guida autonoma, l'intelligenza embodied e l'automazione industriale, dove la generazione di risposte accurate entro un determinato budget temporale è cruciale per attività di decision-making, controllo o compiti safety-critical. Tuttavia, il processo di generazione auto-regressivo degli LLM rende complesso modellare e stimare il tempo di esecuzione end-to-end. Inoltre, i metodi di inferenza efficienti esistenti, basati su un rapporto di rimozione (eviction ratio) fisso della key-value (KV) cache, faticano ad adattarsi a compiti variabili con diversi budget temporali, dove un rapporto di rimozione inappropriato può portare a un'inferenza incompleta o a un calo delle prestazioni della risposta. In questo articolo, proponiamo TimeBill, un nuovo framework di inferenza time-budgeted per LLM che bilancia l'efficienza inferenziale e le prestazioni della risposta. Nello specifico, proponiamo un predittore a grana fine della lunghezza della risposta (Response Length Predictor - RLP) e uno stimatore del tempo di esecuzione (Execution Time Estimator - ETE) per prevedere accuratamente il tempo di esecuzione end-to-end degli LLM. Successivamente, sviluppiamo un approccio di inferenza efficiente time-budgeted che adatta dinamicamente il rapporto di rimozione della KV cache in base alla previsione del tempo di esecuzione e al budget temporale assegnato. Infine, attraverso esperimenti approfonditi, dimostriamo i vantaggi di TimeBill nel migliorare il tasso di completamento dei task e nel mantenere le prestazioni della risposta sotto varie strategie di superamento del budget (overrun).

English

Large Language Models (LLMs) are increasingly deployed in time-critical systems, such as robotics, autonomous driving, embodied intelligence, and industrial automation, where generating accurate responses within a given time budget is crucial for decision-making, control, or safety-critical tasks. However, the auto-regressive generation process of LLMs makes it challenging to model and estimate the end-to-end execution time. Furthermore, existing efficient inference methods based on a fixed key-value (KV) cache eviction ratio struggle to adapt to varying tasks with diverse time budgets, where an improper eviction ratio may lead to incomplete inference or a drop in response performance. In this paper, we propose TimeBill, a novel time-budgeted inference framework for LLMs that balances the inference efficiency and response performance. To be more specific, we propose a fine-grained response length predictor (RLP) and an execution time estimator (ETE) to accurately predict the end-to-end execution time of LLMs. Following this, we develop a time-budgeted efficient inference approach that adaptively adjusts the KV cache eviction ratio based on execution time prediction and the given time budget. Finally, through extensive experiments, we demonstrate the advantages of TimeBill in improving task completion rate and maintaining response performance under various overrun strategies.

TimeBill: Inferenza a Budget di Tempo per i Grandi Modelli Linguistici

TimeBill: Time-Budgeted Inference for Large Language Models

Abstract

Support