Cosa limita l'efficienza dei sistemi agentici?

Abstract

I Large Language Model (LLM), come OpenAI-o1 e DeepSeek-R1, hanno dimostrato notevoli capacità di ragionamento. Per potenziare ulteriormente le capacità degli LLM, recenti sistemi agentivi, come Deep Research, integrano interazioni web nel ragionamento degli LLM per mitigare le incertezze e ridurre potenziali errori. Tuttavia, la ricerca esistente si concentra prevalentemente sulle prestazioni di ragionamento, trascurando spesso l'efficienza dei sistemi agentivi. In questo lavoro, presentiamo uno studio empirico completo che identifica i colli di bottiglia nell'efficienza dei sistemi agentivi interattivi web. Scomponiamo la latenza end-to-end in due componenti principali: la latenza delle API degli LLM e la latenza dell'ambiente web. Condurremo uno studio empirico completo su 15 modelli e 5 provider per dimostrare l'elevata variabilità nei sistemi agentivi basati su API. Osserviamo che la latenza dell'ambiente web può contribuire fino al 53,7% della latenza complessiva in un sistema agentivo basato sul web. Per migliorare la latenza, proponiamo SpecCache, un framework di caching potenziato con esecuzione speculativa che può ridurre il sovraccarico dell'ambiente web. Valutazioni estese su due benchmark standard mostrano che il nostro approccio migliora il tasso di cache hit fino a 58x rispetto a una strategia di caching casuale, riducendo il sovraccarico dell'ambiente web fino a 3,2x, senza degradare le prestazioni del sistema agentivo.

English

Large Language Models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated strong reasoning capabilities. To further enhance LLM capabilities, recent agentic systems, such as Deep Research, incorporate web interactions into LLM reasoning to mitigate uncertainties and reduce potential errors. However, existing research predominantly focuses on reasoning performance, often neglecting the efficiency of agentic systems. In this work, we present a comprehensive empirical study that identifies efficiency bottlenecks in web-interactive agentic systems. We decompose end-to-end latency into two primary components: LLM API latency and web environment latency. We conduct a comprehensive empirical study across 15 models and 5 providers to demonstrate high variability in API-based agentic systems. We observe that web environment latency can contribute as much as 53.7% to the overall latency in a web-based agentic system. To improve latency, we propose SpecCache, a caching framework augmented with speculative execution that can reduce web environment overhead. Extensive evaluations on two standard benchmarks show that our approach improves the cache hit rate by up to 58x compared to a random caching strategy, while reducing web environment overhead by up to 3.2x, without degrading agentic system performance.

Cosa limita l'efficienza dei sistemi agentici?

What Limits Agentic Systems Efficiency?

Abstract

Support