Avaliação do Cache Semântico Temporal e da Otimização de Fluxo de Trabalho em Pipelines Agentivos de Plano-Execução

Resumo

Os fluxos de trabalho de operações de ativos industriais são sensíveis à latência, pois uma única consulta de usuário pode exigir coordenação de dados de sensores, ordens de serviço, modos de falha, ferramentas de previsão e agentes específicos de domínio. Avaliamos esse problema no AssetOpsBench (AOB), um benchmark de agente industrial cujo pipeline de planejamento e execução expõe sobrecarga repetida proveniente da descoberta de ferramentas, planejamento do LLM, execução de ferramentas MCP e sumarização final. As técnicas existentes de cache para LLM, como reutilização de cache KV e cache semântico baseado em embeddings, foram projetadas para servir chatbots e falham quando a validade da saída depende de parâmetros de tempo, ativo ou sensor. Propomos duas camadas de otimização complementares para pipelines de planejamento e execução do AOB: um cache semântico temporal e um conjunto de otimizações de fluxo de trabalho MCP que combinam cache de descoberta de ferramentas em disco e execução paralela de etapas com conhecimento de dependências. As otimizações de fluxo de trabalho MCP corresponderam a um ganho de velocidade de 1,67x e reduziram a latência mediana de ponta a ponta em cerca de 40,0%, enquanto o benchmark de cache temporal alcançou uma mediana de 30,6x de ganho de velocidade em acessos ao cache. Além do ganho de velocidade, nossos resultados expõem um modo de falha concreto do cache semântico puro para consultas industriais ricas em parâmetros, fornecendo uma análise crítica de como as escolhas de cache interagem com a correção da avaliação em benchmarks de agentes baseados em MCP.

English

Industrial asset operations workflows are latency-sensitive because a single user query may require coordination over sensor data, work orders, failure modes, forecasting tools, and domain-specific agents. We evaluate this problem on AssetOpsBench (AOB), an industrial agent benchmark whose plan-execute pipeline exposes repeated overhead from tool discovery, LLM planning, MCP tool execution, and final summarization. Existing LLM caching techniques such as KV-cache reuse and embedding-based semantic caching were designed for chatbot serving and break down when output validity depends on time, asset, or sensor parameters. We propose two complementary optimization layers for AOB plan-execute pipelines: a temporal semantic cache and a set of MCP workflow optimizations combining disk-backed tool-discovery caching and dependency-aware parallel step execution. MCP workflow optimizations corresponded to a 1.67x speedup and reduced median end-to-end latency by about 40.0% while the temporal-cache benchmark achieved a median of 30.6x speedup on cache hits. Beyond the speedup, our results expose a concrete failure mode of pure semantic caching for parameter-rich industrial queries, providing a critical analysis of how caching choices interact with evaluation correctness in MCP-backed agent benchmarks.