¿Qué limita la eficiencia de los sistemas agentivos?
What Limits Agentic Systems Efficiency?
October 18, 2025
Autores: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como OpenAI-o1 y DeepSeek-R1, han demostrado capacidades de razonamiento sólidas. Para mejorar aún más las capacidades de los LLMs, sistemas agentes recientes, como Deep Research, incorporan interacciones web en el razonamiento de los LLMs para mitigar incertidumbres y reducir errores potenciales. Sin embargo, la investigación existente se centra predominantemente en el rendimiento del razonamiento, a menudo descuidando la eficiencia de los sistemas agentes. En este trabajo, presentamos un estudio empírico exhaustivo que identifica cuellos de botella de eficiencia en sistemas agentes interactivos basados en la web. Descomponemos la latencia de extremo a extremo en dos componentes principales: la latencia de la API del LLM y la latencia del entorno web. Realizamos un estudio empírico exhaustivo en 15 modelos y 5 proveedores para demostrar una alta variabilidad en los sistemas agentes basados en API. Observamos que la latencia del entorno web puede contribuir hasta un 53.7% a la latencia total en un sistema agente basado en la web. Para mejorar la latencia, proponemos SpecCache, un marco de almacenamiento en caché aumentado con ejecución especulativa que puede reducir la sobrecarga del entorno web. Evaluaciones extensas en dos puntos de referencia estándar muestran que nuestro enfoque mejora la tasa de aciertos en la caché hasta 58 veces en comparación con una estrategia de almacenamiento en caché aleatoria, mientras reduce la sobrecarga del entorno web hasta 3.2 veces, sin degradar el rendimiento del sistema agente.
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.