Wat beperkt de efficiëntie van agentische systemen?
What Limits Agentic Systems Efficiency?
October 18, 2025
Auteurs: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
Samenvatting
Grote Taalmodellen (LLMs), zoals OpenAI-o1 en DeepSeek-R1, hebben sterke redeneervaardigheden aangetoond. Om de mogelijkheden van LLMs verder te verbeteren, integreren recente agentische systemen, zoals Deep Research, webinteracties in het redeneren van LLMs om onzekerheden te verminderen en potentiële fouten te minimaliseren. Bestaand onderzoek richt zich echter voornamelijk op redeneerprestaties en negeert vaak de efficiëntie van agentische systemen. In dit werk presenteren we een uitgebreide empirische studie die efficiëntieknelpunten in webinteractieve agentische systemen identificeert. We verdelen de end-to-end latentie in twee primaire componenten: LLM API-latentie en webomgevingslatentie. We voeren een uitgebreide empirische studie uit over 15 modellen en 5 providers om de hoge variabiliteit in API-gebaseerde agentische systemen aan te tonen. We observeren dat webomgevingslatentie tot wel 53,7% kan bijdragen aan de totale latentie in een webgebaseerd agentisch systeem. Om de latentie te verbeteren, stellen we SpecCache voor, een cachingframework versterkt met speculatieve uitvoering, dat de overhead van de webomgeving kan verminderen. Uitgebreide evaluaties op twee standaardbenchmarks tonen aan dat onze aanpak de cache-treffersnelheid tot 58x verbetert in vergelijking met een willekeurige cachingstrategie, terwijl de overhead van de webomgeving tot 3,2x wordt verminderd, zonder de prestaties van het agentische systeem te verslechteren.
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.