에이전트 시스템의 효율성을 제한하는 요인은 무엇인가?
What Limits Agentic Systems Efficiency?
October 18, 2025
저자: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
초록
OpenAI-o1 및 DeepSeek-R1과 같은 대형 언어 모델(LLMs)은 강력한 추론 능력을 보여주고 있다. LLM의 능력을 더욱 향상시키기 위해, 최근의 에이전트 시스템(예: Deep Research)은 웹 상호작용을 LLM 추론에 통합하여 불확실성을 완화하고 잠재적 오류를 줄이고 있다. 그러나 기존 연구는 주로 추론 성능에 초점을 맞추고 있으며, 종종 에이전트 시스템의 효율성을 간과하고 있다. 본 연구에서는 웹 상호작용 에이전트 시스템에서의 효율성 병목 현상을 식별하기 위한 포괄적인 실증 연구를 제시한다. 종단 간 지연 시간을 LLM API 지연 시간과 웹 환경 지연 시간이라는 두 가지 주요 구성 요소로 분해한다. 15개의 모델과 5개의 제공자를 대상으로 한 포괄적인 실증 연구를 통해 API 기반 에이전트 시스템에서의 높은 변동성을 입증한다. 웹 기반 에이전트 시스템에서 웹 환경 지연 시간이 전체 지연 시간의 최대 53.7%까지 기여할 수 있음을 관찰한다. 지연 시간을 개선하기 위해, 웹 환경 오버헤드를 줄일 수 있는 사전 실행(speculative execution)을 강화한 캐싱 프레임워크인 SpecCache를 제안한다. 두 가지 표준 벤치마크에 대한 광범위한 평가 결과, 우리의 접근 방식은 무작위 캐싱 전략에 비해 캐시 적중률을 최대 58배까지 향상시키고, 웹 환경 오버헤드를 최대 3.2배까지 감소시키며, 에이전트 시스템의 성능을 저하시키지 않음을 보여준다.
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.