Оценка временного семантического кэширования и оптимизации рабочих процессов в агентных конвейерах планирования и выполнения

Аннотация

Рабочие процессы управления промышленными активами чувствительны к задержкам, поскольку один запрос пользователя может требовать координации данных датчиков, рабочих нарядов, видов отказов, инструментов прогнозирования и агентов предметной области. Мы оцениваем эту задачу на AssetOpsBench (AOB) — промышленном эталонном тесте для агентов, конвейер планирования и выполнения которого выявляет многократные накладные расходы на обнаружение инструментов, планирование LLM, выполнение инструментов MCP и итоговое обобщение. Существующие методы кэширования LLM, такие как повторное использование кэша KV и семантическое кэширование на основе эмбеддингов, были разработаны для обслуживания чат-ботов и дают сбой, когда достоверность вывода зависит от времени, актива или параметров датчиков. Мы предлагаем два взаимодополняющих уровня оптимизации для конвейеров планирования и выполнения AOB: временной семантический кэш и набор оптимизаций рабочего процесса MCP, объединяющих кэширование обнаружения инструментов на диске и параллельное выполнение шагов с учетом зависимостей. Оптимизации рабочего процесса MCP соответствовали ускорению в 1,67x и снижению медианной сквозной задержки примерно на 40,0%, в то время как временной кэш в эталонном тесте достиг медианного ускорения в 30,6x при попаданиях в кэш. Помимо ускорения, наши результаты выявляют конкретный вид сбоя чистого семантического кэширования для запросов с большим количеством параметров, предоставляя критический анализ того, как выбор методов кэширования взаимодействует с корректностью оценки в эталонных тестах агентов на основе MCP.

English

Industrial asset operations workflows are latency-sensitive because a single user query may require coordination over sensor data, work orders, failure modes, forecasting tools, and domain-specific agents. We evaluate this problem on AssetOpsBench (AOB), an industrial agent benchmark whose plan-execute pipeline exposes repeated overhead from tool discovery, LLM planning, MCP tool execution, and final summarization. Existing LLM caching techniques such as KV-cache reuse and embedding-based semantic caching were designed for chatbot serving and break down when output validity depends on time, asset, or sensor parameters. We propose two complementary optimization layers for AOB plan-execute pipelines: a temporal semantic cache and a set of MCP workflow optimizations combining disk-backed tool-discovery caching and dependency-aware parallel step execution. MCP workflow optimizations corresponded to a 1.67x speedup and reduced median end-to-end latency by about 40.0% while the temporal-cache benchmark achieved a median of 30.6x speedup on cache hits. Beyond the speedup, our results expose a concrete failure mode of pure semantic caching for parameter-rich industrial queries, providing a critical analysis of how caching choices interact with evaluation correctness in MCP-backed agent benchmarks.