エージェンシーシステムの効率性を制限する要因は何か?
What Limits Agentic Systems Efficiency?
October 18, 2025
著者: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
要旨
大規模言語モデル(LLMs)、例えばOpenAI-o1やDeepSeek-R1は、強力な推論能力を示している。LLMの能力をさらに向上させるために、最近のエージェントシステム、例えばDeep Researchは、ウェブインタラクションをLLMの推論に組み込み、不確実性を軽減し、潜在的なエラーを減少させている。しかし、既存の研究は主に推論性能に焦点を当てており、エージェントシステムの効率性をしばしば無視している。本研究では、ウェブインタラクティブなエージェントシステムにおける効率性のボトルネックを特定する包括的な実証研究を提示する。エンドツーエンドのレイテンシを、LLM APIレイテンシとウェブ環境レイテンシの2つの主要な要素に分解する。15のモデルと5つのプロバイダーにわたる包括的な実証研究を行い、APIベースのエージェントシステムにおける高い変動性を実証する。ウェブ環境レイテンシが、ウェブベースのエージェントシステム全体のレイテンシの最大53.7%を占めることを観察する。レイテンシを改善するために、SpecCacheという、投機的実行を強化したキャッシングフレームワークを提案し、ウェブ環境のオーバーヘッドを削減する。2つの標準ベンチマークでの広範な評価により、本アプローチがランダムキャッシング戦略と比較してキャッシュヒット率を最大58倍向上させ、ウェブ環境のオーバーヘッドを最大3.2倍削減しつつ、エージェントシステムの性能を低下させないことを示す。
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.