SPIN: Planejamento Estrutural de LLM via Navegação Iterativa para Tarefas Industriais

Resumo

Os sistemas industriais de agentes baseados em LLM frequentemente separam o planejamento da execução, mas os planejadores baseados em LLM produzem com frequência workflows estruturalmente inválidos ou desnecessariamente longos, levando a falhas frágeis e custos evitáveis de ferramentas e APIs. Propomos o SPIN, um invólucro de planejamento que combina o planejamento validado por Grafo Acíclico Dirigido (DAG) com controle de execução baseado em prefixo. O SPIN impõe um contrato estrito de DAG por meio de `_validate_plan_text` e correção por prompt, gerando planos executáveis antes da execução downstream, e então avalia incrementalmente prefixos do DAG para parar quando o prefixo atual é suficiente para responder à consulta. No AssetOpsBench, em 261 cenários, o SPIN reduz as tarefas executadas de 1061 para 623 e melhora o Accomplished de 0,638 para 0,706, enquanto reduz as chamadas de ferramentas de 11,81 para 6,82 por execução. No MCP Bench, o mesmo invólucro melhora as pontuações relacionadas ao planejamento, fundamentação e dependência tanto para o GPT OSS1 quanto para o Llama 4 Maverick.

English

Industrial LLM agent systems often separate planning from execution, yet LLM planners frequently produce structurally invalid or unnecessarily long workflows, leading to brittle failures and avoidable tool and API cost. We propose SPIN, a planning wrapper that combines validated Directed Acyclic Graph (DAG) planning with prefix based execution control. SPIN enforces a strict DAG contract through \_validate\_plan\_text and repair prompting, producing executable plans before downstream execution, and then evaluates DAG prefixes incrementally to stop when the current prefix is sufficient to answer the query. On AssetOpsBench, across 261 scenarios, SPIN reduces executed tasks from 1061 to 623 and improves Accomplished from 0.638 to 0.706, while reducing tool calls from 11.81 to 6.82 per run. On MCP Bench, the same wrapper improves planning, grounding, and dependency related scores for both GPT OSS1 and Llama 4 Maverick.