Was begrenzt die Effizienz agentenbasierter Systeme?
What Limits Agentic Systems Efficiency?
October 18, 2025
papers.authors: Song Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman
cs.AI
papers.abstract
Große Sprachmodelle (LLMs), wie OpenAI-o1 und DeepSeek-R1, haben starke Fähigkeiten im Bereich des logischen Schließens demonstriert. Um die Fähigkeiten von LLMs weiter zu verbessern, integrieren neuere agentenbasierte Systeme, wie Deep Research, Web-Interaktionen in das logische Schließen von LLMs, um Unsicherheiten zu verringern und potenzielle Fehler zu reduzieren. Bisherige Forschung konzentriert sich jedoch hauptsächlich auf die Leistungsfähigkeit des logischen Schließens und vernachlässigt oft die Effizienz agentenbasierter Systeme. In dieser Arbeit präsentieren wir eine umfassende empirische Studie, die Engpässe in der Effizienz von web-interaktiven agentenbasierten Systemen identifiziert. Wir zerlegen die End-to-End-Latenz in zwei Hauptkomponenten: die Latenz der LLM-API und die Latenz der Web-Umgebung. Wir führen eine umfassende empirische Studie über 15 Modelle und 5 Anbieter durch, um die hohe Variabilität in API-basierten agentenbasierten Systemen zu demonstrieren. Wir beobachten, dass die Latenz der Web-Umgebung bis zu 53,7 % zur Gesamtlatenz in einem web-basierten agentenbasierten System beitragen kann. Um die Latenz zu verbessern, schlagen wir SpecCache vor, ein Caching-Framework, das durch spekulative Ausführung erweitert wird und den Overhead der Web-Umgebung reduzieren kann. Umfangreiche Auswertungen anhand von zwei Standard-Benchmarks zeigen, dass unser Ansatz die Cache-Trefferrate um bis zu 58x im Vergleich zu einer zufälligen Caching-Strategie verbessert, während der Overhead der Web-Umgebung um bis zu 3,2x reduziert wird, ohne die Leistung des agentenbasierten Systems zu beeinträchtigen.
English
Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have
demonstrated strong reasoning capabilities. To further enhance LLM
capabilities, recent agentic systems, such as Deep Research, incorporate web
interactions into LLM reasoning to mitigate uncertainties and reduce potential
errors. However, existing research predominantly focuses on reasoning
performance, often neglecting the efficiency of agentic systems. In this work,
we present a comprehensive empirical study that identifies efficiency
bottlenecks in web-interactive agentic systems. We decompose end-to-end latency
into two primary components: LLM API latency and web environment latency. We
conduct a comprehensive empirical study across 15 models and 5 providers to
demonstrate high variability in API-based agentic systems. We observe that web
environment latency can contribute as much as 53.7% to the overall latency in a
web-based agentic system. To improve latency, we propose SpecCache, a caching
framework augmented with speculative execution that can reduce web environment
overhead. Extensive evaluations on two standard benchmarks show that our
approach improves the cache hit rate by up to 58x compared to a random caching
strategy, while reducing web environment overhead by up to 3.2x, without
degrading agentic system performance.