Quelles sont les limites de l'efficacité des systèmes agentiques ?

papers.abstract

Les modèles de langage de grande envergure (LLMs), tels qu’OpenAI-o1 et DeepSeek-R1, ont démontré de solides capacités de raisonnement. Pour améliorer davantage les capacités des LLMs, des systèmes agentiques récents, comme Deep Research, intègrent des interactions web dans le processus de raisonnement des LLMs afin de réduire les incertitudes et les erreurs potentielles. Cependant, les recherches existantes se concentrent principalement sur la performance en matière de raisonnement, négligeant souvent l’efficacité des systèmes agentiques. Dans ce travail, nous présentons une étude empirique approfondie qui identifie les goulots d’étranglement en matière d’efficacité dans les systèmes agentiques interactifs avec le web. Nous décomposons la latence de bout en bout en deux composantes principales : la latence des API des LLMs et la latence de l’environnement web. Nous menons une étude empirique exhaustive sur 15 modèles et 5 fournisseurs pour démontrer une variabilité élevée dans les systèmes agentiques basés sur des API. Nous observons que la latence de l’environnement web peut contribuer jusqu’à 53,7 % à la latence globale d’un système agentique basé sur le web. Pour améliorer la latence, nous proposons SpecCache, un cadre de mise en cache augmenté par une exécution spéculative, capable de réduire la surcharge de l’environnement web. Des évaluations approfondies sur deux benchmarks standards montrent que notre approche améliore le taux de succès du cache jusqu’à 58 fois par rapport à une stratégie de mise en cache aléatoire, tout en réduisant la surcharge de l’environnement web jusqu’à 3,2 fois, sans dégrader la performance du système agentique.

English

Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated strong reasoning capabilities. To further enhance LLM capabilities, recent agentic systems, such as Deep Research, incorporate web interactions into LLM reasoning to mitigate uncertainties and reduce potential errors. However, existing research predominantly focuses on reasoning performance, often neglecting the efficiency of agentic systems. In this work, we present a comprehensive empirical study that identifies efficiency bottlenecks in web-interactive agentic systems. We decompose end-to-end latency into two primary components: LLM API latency and web environment latency. We conduct a comprehensive empirical study across 15 models and 5 providers to demonstrate high variability in API-based agentic systems. We observe that web environment latency can contribute as much as 53.7% to the overall latency in a web-based agentic system. To improve latency, we propose SpecCache, a caching framework augmented with speculative execution that can reduce web environment overhead. Extensive evaluations on two standard benchmarks show that our approach improves the cache hit rate by up to 58x compared to a random caching strategy, while reducing web environment overhead by up to 3.2x, without degrading agentic system performance.

Quelles sont les limites de l'efficacité des systèmes agentiques ?

What Limits Agentic Systems Efficiency?

papers.abstract

Support