SPIN: Структурное планирование на основе LLM с итеративной навигацией для промышленных задач

Аннотация

Промышленные системы LLM-агентов часто разделяют планирование и выполнение, однако LLM-планировщики нередко генерируют структурно некорректные или излишне длинные рабочие процессы, что приводит к нестабильным сбоям и излишним затратам на инструменты и API. Мы предлагаем SPIN — оболочку для планирования, которая объединяет валидированное планирование на основе направленных ациклических графов (DAG) с префиксно-ориентированным контролем выполнения. SPIN обеспечивает строгое соблюдение DAG-контракта с помощью _validate_plan_text и восстановительного промптинга, генерируя исполняемые планы до их выполнения, а затем инкрементально оценивает DAG-префиксы, останавливаясь, когда текущий префикс достаточен для ответа на запрос. На наборе AssetOpsBench, включающем 261 сценарий, SPIN сокращает количество выполненных задач с 1061 до 623 и повышает показатель Accomplished с 0,638 до 0,706, одновременно уменьшая количество вызовов инструментов с 11,81 до 6,82 за запуск. На MCP Bench та же оболочка улучшает показатели планирования, привязки и зависимостей как для GPT OSS1, так и для Llama 4 Maverick.

English

Industrial LLM agent systems often separate planning from execution, yet LLM planners frequently produce structurally invalid or unnecessarily long workflows, leading to brittle failures and avoidable tool and API cost. We propose SPIN, a planning wrapper that combines validated Directed Acyclic Graph (DAG) planning with prefix based execution control. SPIN enforces a strict DAG contract through \_validate\_plan\_text and repair prompting, producing executable plans before downstream execution, and then evaluates DAG prefixes incrementally to stop when the current prefix is sufficient to answer the query. On AssetOpsBench, across 261 scenarios, SPIN reduces executed tasks from 1061 to 623 and improves Accomplished from 0.638 to 0.706, while reducing tool calls from 11.81 to 6.82 per run. On MCP Bench, the same wrapper improves planning, grounding, and dependency related scores for both GPT OSS1 and Llama 4 Maverick.