O que Limita a Eficiência dos Sistemas Agênticos?
What Limits Agentic Systems Efficiency?
October 18, 2025
Autores: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs), como o OpenAI-o1 e o DeepSeek-R1, demonstraram fortes capacidades de raciocínio. Para aprimorar ainda mais as capacidades dos LLMs, sistemas agentes recentes, como o Deep Research, incorporam interações web no raciocínio dos LLMs para mitigar incertezas e reduzir possíveis erros. No entanto, as pesquisas existentes focam predominantemente no desempenho do raciocínio, muitas vezes negligenciando a eficiência dos sistemas agentes. Neste trabalho, apresentamos um estudo empírico abrangente que identifica gargalos de eficiência em sistemas agentes interativos com a web. Decompomos a latência de ponta a ponta em dois componentes principais: latência da API do LLM e latência do ambiente web. Realizamos um estudo empírico abrangente em 15 modelos e 5 provedores para demonstrar alta variabilidade em sistemas agentes baseados em API. Observamos que a latência do ambiente web pode contribuir com até 53,7% da latência total em um sistema agente baseado na web. Para melhorar a latência, propomos o SpecCache, uma estrutura de cache aprimorada com execução especulativa que pode reduzir a sobrecarga do ambiente web. Avaliações extensas em dois benchmarks padrão mostram que nossa abordagem melhora a taxa de acerto do cache em até 58x em comparação com uma estratégia de cache aleatória, enquanto reduz a sobrecarga do ambiente web em até 3,2x, sem degradar o desempenho do sistema agente.
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.