TimeBill: 대규모 언어 모델을 위한 시간 예산 기반 추론
TimeBill: Time-Budgeted Inference for Large Language Models
December 26, 2025
저자: Qi Fan, An Zou, Yehan Ma
cs.AI
초록
대규모 언어 모델(LLM)은 로봇공학, 자율주행, 구현형 인공지능, 산업 자동화와 같은 시간에 민감한 시스템에 점차 배치되고 있으며, 이러한 시스템에서는 주어진 시간 예산 내에서 정확한 응답을 생성하는 것이 의사 결정, 제어 또는 안전 중대 작업에 매우 중요합니다. 그러나 LLM의 자기회귀적 생성 과정은 종단 간 실행 시간을 모델링하고 추정하는 것을 어렵게 만듭니다. 더욱이 고정된 키-값(KV) 캐시 제거 비율에 기반한 기존의 효율적인 추론 방법은 다양한 시간 예산을 가진 변화하는 작업에 적응하기 어려우며, 부적절한 제거 비율은 불완전한 추론이나 응답 성능 저하로 이어질 수 있습니다. 본 논문에서는 LLM을 위한 새로운 시간 예산 기반 추론 프레임워크인 TimeBill을 제안합니다. 이 프레임워크는 추론 효율성과 응답 성능의 균형을 맞춥니다. 구체적으로, LLM의 종단 간 실행 시간을 정확히 예측하기 위해 세분화된 응답 길이 예측기(RLP)와 실행 시간 추정기(ETE)를 제안합니다. 이를 바탕으로 실행 시간 예측과 주어진 시간 예산에 따라 KV 캐시 제거 비율을 적응적으로 조절하는 시간 예산 기반 효율 추론 기법을 개발합니다. 마지막으로, 광범위한 실험을 통해 다양한 시간 초과 대처 전략 하에서 TimeBill이 작업 완료율 향상과 응답 성능 유지 측면에서 가지는 장점을 입증합니다.
English
Large Language Models (LLMs) are increasingly deployed in time-critical systems, such as robotics, autonomous driving, embodied intelligence, and industrial automation, where generating accurate responses within a given time budget is crucial for decision-making, control, or safety-critical tasks. However, the auto-regressive generation process of LLMs makes it challenging to model and estimate the end-to-end execution time. Furthermore, existing efficient inference methods based on a fixed key-value (KV) cache eviction ratio struggle to adapt to varying tasks with diverse time budgets, where an improper eviction ratio may lead to incomplete inference or a drop in response performance. In this paper, we propose TimeBill, a novel time-budgeted inference framework for LLMs that balances the inference efficiency and response performance. To be more specific, we propose a fine-grained response length predictor (RLP) and an execution time estimator (ETE) to accurately predict the end-to-end execution time of LLMs. Following this, we develop a time-budgeted efficient inference approach that adaptively adjusts the KV cache eviction ratio based on execution time prediction and the given time budget. Finally, through extensive experiments, we demonstrate the advantages of TimeBill in improving task completion rate and maintaining response performance under various overrun strategies.