SPIN: Strukturelle LLM-Planung durch iterative Navigation für industrielle Aufgaben

Zusammenfassung

Industrielle LLM-Agentensysteme trennen häufig die Planung von der Ausführung, dennoch erzeugen LLM-Planer regelmäßig strukturell ungültige oder unnötig lange Arbeitsabläufe, was zu anfälligen Fehlern sowie vermeidbaren Werkzeug- und API-Kosten führt. Wir stellen SPIN vor, einen Planungs-Wrapper, der validierte Planung mit gerichteten azyklischen Graphen (DAG) mit präfixbasierter Ausführungssteuerung kombiniert. SPIN erzwingt einen strikten DAG-Vertrag durch die Methode `_validate_plan_text` und Reparatur-Prompting, erzeugt vor der nachgelagerten Ausführung ausführbare Pläne und bewertet anschließend DAG-Präfixe inkrementell, um anzuhalten, sobald das aktuelle Präfix zur Beantwortung der Anfrage ausreicht. In AssetOpsBench reduziert SPIN über 261 Szenarien die ausgeführten Aufgaben von 1061 auf 623 und verbessert Accomplished von 0,638 auf 0,706, während die Werkzeugaufrufe pro Durchlauf von 11,81 auf 6,82 sinken. In MCP Bench verbessert der gleiche Wrapper die Bewertungen für Planung, Grundierung und Abhängigkeitsaspekte sowohl bei GPT OSS1 als auch bei Llama 4 Maverick.

English

Industrial LLM agent systems often separate planning from execution, yet LLM planners frequently produce structurally invalid or unnecessarily long workflows, leading to brittle failures and avoidable tool and API cost. We propose SPIN, a planning wrapper that combines validated Directed Acyclic Graph (DAG) planning with prefix based execution control. SPIN enforces a strict DAG contract through \_validate\_plan\_text and repair prompting, producing executable plans before downstream execution, and then evaluates DAG prefixes incrementally to stop when the current prefix is sufficient to answer the query. On AssetOpsBench, across 261 scenarios, SPIN reduces executed tasks from 1061 to 623 and improves Accomplished from 0.638 to 0.706, while reducing tool calls from 11.81 to 6.82 per run. On MCP Bench, the same wrapper improves planning, grounding, and dependency related scores for both GPT OSS1 and Llama 4 Maverick.