TimeBill : Inférence à budget temporel pour les grands modèles de langage
TimeBill: Time-Budgeted Inference for Large Language Models
December 26, 2025
papers.authors: Qi Fan, An Zou, Yehan Ma
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des systèmes critiques en temps réel, tels que la robotique, la conduite autonome, l'intelligence incarnée et l'automatisation industrielle, où la génération de réponses précises dans un budget temps donné est cruciale pour la prise de décision, le contrôle ou les tâches critiques pour la sécurité. Cependant, le processus de génération auto-régressif des LLM rend difficile la modélisation et l'estimation du temps d'exécution de bout en bout. De plus, les méthodes d'inférence efficaces existantes, basées sur un ratio fixe d'éviction du cache clé-valeur (KV), peinent à s'adapter à des tâches variées avec des budgets temps divers, où un ratio d'éviction inapproprié peut entraîner une inférence incomplète ou une baisse des performances de la réponse. Dans cet article, nous proposons TimeBill, un nouveau cadre d'inférence à budget temps pour les LLM qui équilibre l'efficacité de l'inférence et les performances des réponses. Plus précisément, nous proposons un prédicteur de longueur de réponse à granularité fine (RLP) et un estimateur de temps d'exécution (ETE) pour prédire avec précision le temps d'exécution de bout en bout des LLM. Sur cette base, nous développons une approche d'inférence efficace à budget temps qui ajuste dynamiquement le ratio d'éviction du cache KV en fonction de la prédiction du temps d'exécution et du budget temps donné. Enfin, grâce à des expériences approfondies, nous démontrons les avantages de TimeBill pour améliorer le taux d'achèvement des tâches et maintenir les performances des réponses sous diverses stratégies de dépassement.
English
Large Language Models (LLMs) are increasingly deployed in time-critical systems, such as robotics, autonomous driving, embodied intelligence, and industrial automation, where generating accurate responses within a given time budget is crucial for decision-making, control, or safety-critical tasks. However, the auto-regressive generation process of LLMs makes it challenging to model and estimate the end-to-end execution time. Furthermore, existing efficient inference methods based on a fixed key-value (KV) cache eviction ratio struggle to adapt to varying tasks with diverse time budgets, where an improper eviction ratio may lead to incomplete inference or a drop in response performance. In this paper, we propose TimeBill, a novel time-budgeted inference framework for LLMs that balances the inference efficiency and response performance. To be more specific, we propose a fine-grained response length predictor (RLP) and an execution time estimator (ETE) to accurately predict the end-to-end execution time of LLMs. Following this, we develop a time-budgeted efficient inference approach that adaptively adjusts the KV cache eviction ratio based on execution time prediction and the given time budget. Finally, through extensive experiments, we demonstrate the advantages of TimeBill in improving task completion rate and maintaining response performance under various overrun strategies.