Was begrenzt die Effizienz agentenbasierter Systeme?

papers.abstract

Große Sprachmodelle (LLMs), wie OpenAI-o1 und DeepSeek-R1, haben starke Fähigkeiten im Bereich des logischen Schließens demonstriert. Um die Fähigkeiten von LLMs weiter zu verbessern, integrieren neuere agentenbasierte Systeme, wie Deep Research, Web-Interaktionen in das logische Schließen von LLMs, um Unsicherheiten zu verringern und potenzielle Fehler zu reduzieren. Bisherige Forschung konzentriert sich jedoch hauptsächlich auf die Leistungsfähigkeit des logischen Schließens und vernachlässigt oft die Effizienz agentenbasierter Systeme. In dieser Arbeit präsentieren wir eine umfassende empirische Studie, die Engpässe in der Effizienz von web-interaktiven agentenbasierten Systemen identifiziert. Wir zerlegen die End-to-End-Latenz in zwei Hauptkomponenten: die Latenz der LLM-API und die Latenz der Web-Umgebung. Wir führen eine umfassende empirische Studie über 15 Modelle und 5 Anbieter durch, um die hohe Variabilität in API-basierten agentenbasierten Systemen zu demonstrieren. Wir beobachten, dass die Latenz der Web-Umgebung bis zu 53,7 % zur Gesamtlatenz in einem web-basierten agentenbasierten System beitragen kann. Um die Latenz zu verbessern, schlagen wir SpecCache vor, ein Caching-Framework, das durch spekulative Ausführung erweitert wird und den Overhead der Web-Umgebung reduzieren kann. Umfangreiche Auswertungen anhand von zwei Standard-Benchmarks zeigen, dass unser Ansatz die Cache-Trefferrate um bis zu 58x im Vergleich zu einer zufälligen Caching-Strategie verbessert, während der Overhead der Web-Umgebung um bis zu 3,2x reduziert wird, ohne die Leistung des agentenbasierten Systems zu beeinträchtigen.

English

Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated strong reasoning capabilities. To further enhance LLM capabilities, recent agentic systems, such as Deep Research, incorporate web interactions into LLM reasoning to mitigate uncertainties and reduce potential errors. However, existing research predominantly focuses on reasoning performance, often neglecting the efficiency of agentic systems. In this work, we present a comprehensive empirical study that identifies efficiency bottlenecks in web-interactive agentic systems. We decompose end-to-end latency into two primary components: LLM API latency and web environment latency. We conduct a comprehensive empirical study across 15 models and 5 providers to demonstrate high variability in API-based agentic systems. We observe that web environment latency can contribute as much as 53.7% to the overall latency in a web-based agentic system. To improve latency, we propose SpecCache, a caching framework augmented with speculative execution that can reduce web environment overhead. Extensive evaluations on two standard benchmarks show that our approach improves the cache hit rate by up to 58x compared to a random caching strategy, while reducing web environment overhead by up to 3.2x, without degrading agentic system performance.

Was begrenzt die Effizienz agentenbasierter Systeme?

What Limits Agentic Systems Efficiency?

papers.abstract

Support