ChatPaper.aiChatPaper

SPIN: Structurele LLM-planning via iteratieve navigatie voor industriële taken

SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

May 13, 2026
Auteurs: Yusuke Ozaki, Dhaval Patel
cs.AI

Samenvatting

Industriële LLM-agentsystemen scheiden planning vaak van uitvoering, maar LLM-planners produceren regelmatig structureel ongeldige of onnodig lange workflows, wat leidt tot broze fouten en vermijdbare tool- en API-kosten. Wij stellen SPIN voor, een planningswrapper die gevalideerde gerichte acyclische graaf (DAG) planning combineert met prefix-gebaseerde uitvoeringscontrole. SPIN handhaaft een strikt DAG-contract via `_validate_plan_text` en herstelpompten, waardoor uitvoerbare plannen worden gegenereerd vóór downstream-uitvoering, en evalueert vervolgens incrementeel DAG-prefixen om te stoppen wanneer het huidige prefix voldoende is om de query te beantwoorden. Op AssetOpsBench, over 261 scenario's, reduceert SPIN het aantal uitgevoerde taken van 1061 naar 623 en verbetert het de Accomplished-score van 0,638 naar 0,706, terwijl het aantal toolaanroepen per run daalt van 11,81 naar 6,82. Op MCP Bench verbetert dezelfde wrapper de scores voor planning, grounding en afhankelijkheidsgerelateerde aspecten voor zowel GPT OSS1 als Llama 4 Maverick.
English
Industrial LLM agent systems often separate planning from execution, yet LLM planners frequently produce structurally invalid or unnecessarily long workflows, leading to brittle failures and avoidable tool and API cost. We propose SPIN, a planning wrapper that combines validated Directed Acyclic Graph (DAG) planning with prefix based execution control. SPIN enforces a strict DAG contract through \_validate\_plan\_text and repair prompting, producing executable plans before downstream execution, and then evaluates DAG prefixes incrementally to stop when the current prefix is sufficient to answer the query. On AssetOpsBench, across 261 scenarios, SPIN reduces executed tasks from 1061 to 623 and improves Accomplished from 0.638 to 0.706, while reducing tool calls from 11.81 to 6.82 per run. On MCP Bench, the same wrapper improves planning, grounding, and dependency related scores for both GPT OSS1 and Llama 4 Maverick.