Évaluation du cache sémantique temporel et de l'optimisation des workflows dans les pipelines agentiques Plan-Execute

Résumé

Les workflows d'exploitation d'actifs industriels sont sensibles à la latence, car une seule requête utilisateur peut nécessiter la coordination de données de capteurs, d'ordres de travail, de modes de défaillance, d'outils de prévision et d'agents spécialisés par domaine. Nous évaluons ce problème sur AssetOpsBench (AOB), un benchmark d'agents industriels dont le pipeline planifier-exécuter expose une surcharge répétée liée à la découverte d'outils, à la planification par LLM, à l'exécution d'outils MCP et à la synthèse finale. Les techniques de mise en cache de LLM existantes, telles que la réutilisation du cache KV et le cache sémantique basé sur les embeddings, ont été conçues pour le service de chatbots et échouent lorsque la validité des sorties dépend de paramètres temporels, d'actifs ou de capteurs. Nous proposons deux couches d'optimisation complémentaires pour les pipelines planifier-exécuter d'AOB : un cache sémantique temporel et un ensemble d'optimisations de workflows MCP combinant la mise en cache de la découverte d'outils sur disque et l'exécution parallèle des étapes tenant compte des dépendances. Les optimisations de workflows MCP ont entraîné une accélération d'un facteur 1,67 et une réduction d'environ 40,0 % de la latence médiane de bout en bout, tandis que le benchmark du cache temporel a atteint une accélération médiane d'un facteur 30,6 lors des hits de cache. Au-delà de l'accélération, nos résultats mettent en évidence un mode de défaillance concret du cache sémantique pur pour les requêtes industrielles riches en paramètres, fournissant une analyse critique de la manière dont les choix de mise en cache interagissent avec l'exactitude de l'évaluation dans les benchmarks d'agents utilisant MCP.

English

Industrial asset operations workflows are latency-sensitive because a single user query may require coordination over sensor data, work orders, failure modes, forecasting tools, and domain-specific agents. We evaluate this problem on AssetOpsBench (AOB), an industrial agent benchmark whose plan-execute pipeline exposes repeated overhead from tool discovery, LLM planning, MCP tool execution, and final summarization. Existing LLM caching techniques such as KV-cache reuse and embedding-based semantic caching were designed for chatbot serving and break down when output validity depends on time, asset, or sensor parameters. We propose two complementary optimization layers for AOB plan-execute pipelines: a temporal semantic cache and a set of MCP workflow optimizations combining disk-backed tool-discovery caching and dependency-aware parallel step execution. MCP workflow optimizations corresponded to a 1.67x speedup and reduced median end-to-end latency by about 40.0% while the temporal-cache benchmark achieved a median of 30.6x speedup on cache hits. Beyond the speedup, our results expose a concrete failure mode of pure semantic caching for parameter-rich industrial queries, providing a critical analysis of how caching choices interact with evaluation correctness in MCP-backed agent benchmarks.