Quelles sont les limites de l'efficacité des systèmes agentiques ?
What Limits Agentic Systems Efficiency?
October 18, 2025
papers.authors: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
papers.abstract
Les modèles de langage de grande envergure (LLMs), tels qu’OpenAI-o1 et DeepSeek-R1, ont démontré de solides capacités de raisonnement. Pour améliorer davantage les capacités des LLMs, des systèmes agentiques récents, comme Deep Research, intègrent des interactions web dans le processus de raisonnement des LLMs afin de réduire les incertitudes et les erreurs potentielles. Cependant, les recherches existantes se concentrent principalement sur la performance en matière de raisonnement, négligeant souvent l’efficacité des systèmes agentiques. Dans ce travail, nous présentons une étude empirique approfondie qui identifie les goulots d’étranglement en matière d’efficacité dans les systèmes agentiques interactifs avec le web. Nous décomposons la latence de bout en bout en deux composantes principales : la latence des API des LLMs et la latence de l’environnement web. Nous menons une étude empirique exhaustive sur 15 modèles et 5 fournisseurs pour démontrer une variabilité élevée dans les systèmes agentiques basés sur des API. Nous observons que la latence de l’environnement web peut contribuer jusqu’à 53,7 % à la latence globale d’un système agentique basé sur le web. Pour améliorer la latence, nous proposons SpecCache, un cadre de mise en cache augmenté par une exécution spéculative, capable de réduire la surcharge de l’environnement web. Des évaluations approfondies sur deux benchmarks standards montrent que notre approche améliore le taux de succès du cache jusqu’à 58 fois par rapport à une stratégie de mise en cache aléatoire, tout en réduisant la surcharge de l’environnement web jusqu’à 3,2 fois, sans dégrader la performance du système agentique.
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.