SPIN : Planification structurelle de LLM via navigation itérative pour les tâches industrielles

Résumé

Les systèmes d'agents LLM industriels séparent souvent la planification de l'exécution, mais les planificateurs LLM produisent fréquemment des workflows structurellement invalides ou inutilement longs, entraînant des échecs fragiles et des coûts d'outils et d'API évitables. Nous proposons SPIN, un wrapper de planification qui combine la planification validée par graphe orienté acyclique (DAG) avec un contrôle d'exécution basé sur les préfixes. SPIN applique un contrat DAG strict via \_validate\_plan\_text et un prompt de réparation, produisant des plans exécutables avant l'exécution en aval, puis évalue les préfixes DAG de manière incrémentielle pour s'arrêter lorsque le préfixe actuel est suffisant pour répondre à la requête. Sur AssetOpsBench, à travers 261 scénarios, SPIN réduit les tâches exécutées de 1061 à 623 et améliore le score Accomplished de 0,638 à 0,706, tout en réduisant les appels d'outils de 11,81 à 6,82 par exécution. Sur MCP Bench, le même wrapper améliore les scores liés à la planification, à l'ancrage et aux dépendances pour GPT OSS1 et Llama 4 Maverick.

English

Industrial LLM agent systems often separate planning from execution, yet LLM planners frequently produce structurally invalid or unnecessarily long workflows, leading to brittle failures and avoidable tool and API cost. We propose SPIN, a planning wrapper that combines validated Directed Acyclic Graph (DAG) planning with prefix based execution control. SPIN enforces a strict DAG contract through \_validate\_plan\_text and repair prompting, producing executable plans before downstream execution, and then evaluates DAG prefixes incrementally to stop when the current prefix is sufficient to answer the query. On AssetOpsBench, across 261 scenarios, SPIN reduces executed tasks from 1061 to 623 and improves Accomplished from 0.638 to 0.706, while reducing tool calls from 11.81 to 6.82 per run. On MCP Bench, the same wrapper improves planning, grounding, and dependency related scores for both GPT OSS1 and Llama 4 Maverick.