SPIN: Planificación Estructural con LLM mediante Navegación Iterativa para Tareas Industriales

Resumen

Los sistemas de agentes LLM industriales suelen separar la planificación de la ejecución, pero los planificadores basados en LLM frecuentemente generan flujos de trabajo estructuralmente inválidos o innecesariamente largos, lo que provoca fallos frágiles y costos evitables en herramientas y API. Proponemos SPIN, un envoltorio de planificación que combina planificación de Grafos Acíclicos Dirigidos (DAG) validados con control de ejecución basado en prefijos. SPIN impone un estricto contrato DAG mediante `_validate_plan_text` e indicaciones de reparación (repair prompting), produciendo planes ejecutables antes de la ejecución descendente, y luego evalúa incrementalmente los prefijos del DAG para detenerse cuando el prefijo actual es suficiente para responder la consulta. En AssetOpsBench, con 261 escenarios, SPIN reduce las tareas ejecutadas de 1061 a 623 y mejora Accomplished de 0.638 a 0.706, a la vez que reduce las llamadas a herramientas de 11.81 a 6.82 por ejecución. En MCP Bench, el mismo envoltorio mejora los puntajes relacionados con planificación, fundamentación (grounding) y dependencias tanto para GPT OSS1 como para Llama 4 Maverick.

English

Industrial LLM agent systems often separate planning from execution, yet LLM planners frequently produce structurally invalid or unnecessarily long workflows, leading to brittle failures and avoidable tool and API cost. We propose SPIN, a planning wrapper that combines validated Directed Acyclic Graph (DAG) planning with prefix based execution control. SPIN enforces a strict DAG contract through \_validate\_plan\_text and repair prompting, producing executable plans before downstream execution, and then evaluates DAG prefixes incrementally to stop when the current prefix is sufficient to answer the query. On AssetOpsBench, across 261 scenarios, SPIN reduces executed tasks from 1061 to 623 and improves Accomplished from 0.638 to 0.706, while reducing tool calls from 11.81 to 6.82 per run. On MCP Bench, the same wrapper improves planning, grounding, and dependency related scores for both GPT OSS1 and Llama 4 Maverick.