TimeBill: 大規模言語モデルのための時間予算推論
TimeBill: Time-Budgeted Inference for Large Language Models
December 26, 2025
著者: Qi Fan, An Zou, Yehan Ma
cs.AI
要旨
大規模言語モデル(LLM)は、ロボティクス、自動運転、具身知能、産業オートメーションなど時間制約の厳しいシステムにおいて、意思決定、制御、安全クリティカルなタスクのために所定の時間枠内で正確な応答を生成することが極めて重要となっている。しかし、LLMの自己回帰的生成プロセスは、エンドツーエンドの実行時間をモデル化・推定することを困難にしている。さらに、固定されたキー・バリュー(KV)キャッシュ削除比率に基づく既存の効率的な推論手法は、多様な時間制約を持つタスクに適応することが難しく、不適切な削除比率は推論の不完全化や応答性能の低下を招く可能性がある。本論文では、推論効率と応答性能のバランスを取る新しい時間制約付き推論フレームワーク「TimeBill」を提案する。具体的には、LLMのエンドツーエンド実行時間を正確に予測するため、細粒度の応答長予測器(RLP)と実行時間推定器(ETE)を提案する。これに続き、実行時間予測と所与の時間制約に基づいてKVキャッシュ削除比率を適応的に調整する時間制約付き効率推論手法を開発する。最後に、広範な実験を通じて、TimeBillが様々な超過実行戦略下でのタスク完了率の向上と応答性能の維持において優位性を持つことを実証する。
English
Large Language Models (LLMs) are increasingly deployed in time-critical systems, such as robotics, autonomous driving, embodied intelligence, and industrial automation, where generating accurate responses within a given time budget is crucial for decision-making, control, or safety-critical tasks. However, the auto-regressive generation process of LLMs makes it challenging to model and estimate the end-to-end execution time. Furthermore, existing efficient inference methods based on a fixed key-value (KV) cache eviction ratio struggle to adapt to varying tasks with diverse time budgets, where an improper eviction ratio may lead to incomplete inference or a drop in response performance. In this paper, we propose TimeBill, a novel time-budgeted inference framework for LLMs that balances the inference efficiency and response performance. To be more specific, we propose a fine-grained response length predictor (RLP) and an execution time estimator (ETE) to accurately predict the end-to-end execution time of LLMs. Following this, we develop a time-budgeted efficient inference approach that adaptively adjusts the KV cache eviction ratio based on execution time prediction and the given time budget. Finally, through extensive experiments, we demonstrate the advantages of TimeBill in improving task completion rate and maintaining response performance under various overrun strategies.