Что ограничивает эффективность агентных систем?
What Limits Agentic Systems Efficiency?
October 18, 2025
Авторы: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
Аннотация
Крупные языковые модели (LLM), такие как OpenAI-o1 и DeepSeek-R1, продемонстрировали высокие способности к рассуждению. Для дальнейшего улучшения возможностей LLM современные агентские системы, такие как Deep Research, интегрируют взаимодействие с веб-ресурсами в процесс рассуждения LLM, чтобы снизить неопределенности и уменьшить потенциальные ошибки. Однако существующие исследования в основном сосредоточены на производительности рассуждений, часто упуская из виду эффективность агентских систем. В данной работе мы представляем всестороннее эмпирическое исследование, которое выявляет узкие места в эффективности веб-интерактивных агентских систем. Мы разбиваем общую задержку на два основных компонента: задержку API LLM и задержку веб-среды. Мы проводим всестороннее эмпирическое исследование на 15 моделях и 5 провайдерах, чтобы продемонстрировать высокую вариативность в агентских системах, основанных на API. Мы наблюдаем, что задержка веб-среды может составлять до 53,7% от общей задержки в веб-агентской системе. Для улучшения задержки мы предлагаем SpecCache — кэширующую структуру, дополненную спекулятивным выполнением, которая может снизить накладные расходы веб-среды. Обширные оценки на двух стандартных тестовых наборах показывают, что наш подход увеличивает коэффициент попадания в кэш до 58 раз по сравнению со стратегией случайного кэширования, одновременно снижая накладные расходы веб-среды до 3,2 раз, без ухудшения производительности агентской системы.
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.