Evaluatie van temporele semantische caching en workflowoptimalisatie in agentische plan-uitvoeringspijplijnen

Samenvatting

Workflows voor industriële assetoperaties zijn latentiegevoelig omdat een enkele gebruikersquery coördinatie kan vereisen over sensordata, werkorders, faalwijzen, voorspellingstools en domeinspecifieke agenten. We evalueren dit probleem op AssetOpsBench (AOB), een industriële agentbenchmark waarvan de plan-uitvoer-pijplijn herhaalde overhead blootlegt van tool discovery, LLM-planning, MCP-tooluitvoering en uiteindelijke samenvatting. Bestaande LLM-cachingtechnieken zoals KV-cache-hergebruik en op embeddings gebaseerde semantische caching zijn ontworpen voor chatbot-dienstverlening en falen wanneer de geldigheid van de uitvoer afhangt van tijd-, asset- of sensorparameters. We stellen twee complementaire optimalisatielagen voor AOB-plan-uitvoer-pijplijnen voor: een tijdelijke semantische cache en een reeks MCP-workflowoptimalisaties die schijfondersteunde tool-discovery caching en afhankelijkheidsbewuste parallelle stapuitvoering combineren. MCP-workflowoptimalisaties resulteerden in een 1,67x versnelling en verminderden de mediane end-to-end-latentie met ongeveer 40,0%, terwijl de tijdelijke cache-benchmark een mediane versnelling van 30,6x behaalde bij cache-hits. Naast de versnelling leggen onze resultaten een concrete falingsmodus bloot van pure semantische caching voor parameterrijke industriële queries, en bieden ze een kritische analyse van hoe cachingkeuzes interageren met de correctheid van evaluatie in MCP-ondersteunde agentbenchmarks.

English

Industrial asset operations workflows are latency-sensitive because a single user query may require coordination over sensor data, work orders, failure modes, forecasting tools, and domain-specific agents. We evaluate this problem on AssetOpsBench (AOB), an industrial agent benchmark whose plan-execute pipeline exposes repeated overhead from tool discovery, LLM planning, MCP tool execution, and final summarization. Existing LLM caching techniques such as KV-cache reuse and embedding-based semantic caching were designed for chatbot serving and break down when output validity depends on time, asset, or sensor parameters. We propose two complementary optimization layers for AOB plan-execute pipelines: a temporal semantic cache and a set of MCP workflow optimizations combining disk-backed tool-discovery caching and dependency-aware parallel step execution. MCP workflow optimizations corresponded to a 1.67x speedup and reduced median end-to-end latency by about 40.0% while the temporal-cache benchmark achieved a median of 30.6x speedup on cache hits. Beyond the speedup, our results expose a concrete failure mode of pure semantic caching for parameter-rich industrial queries, providing a critical analysis of how caching choices interact with evaluation correctness in MCP-backed agent benchmarks.