TAPE: Hulpmiddel-gestuurde adaptieve planning en beperkte uitvoering in taalmodelagenten
TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents
February 23, 2026
Auteurs: Jongwon Jeong, Jungtaek Kim, Kangwook Lee
cs.AI
Samenvatting
Taalmodelagenten (LM-agenten) hebben opmerkelijke capaciteiten getoond bij het oplossen van taken die meerdere interacties met de omgeving vereisen. Ze blijven echter kwetsbaar in omgevingen waar een enkele fout vaak leidt tot onherstelbaar falen, vooral onder strikte haalbaarheidsbeperkingen. We analyseren bestaande agentframeworks systematisch en identificeren imperfecte planning en stochastische uitvoering als de primaire oorzaken. Om deze uitdagingen aan te pakken, stellen we Tool-guided Adaptive Planning with constrained Execution (TAPE) voor. TAPE verbetert de planningscapaciteit door meerdere plannen in een graaf samen te voegen en een externe solver in te zetten om een haalbaar pad te identificeren. Tijdens de uitvoering gebruikt TAPE constrained decoding om steekproefruis te verminderen, terwijl het adaptief opnieuw plant wanneer omgevingsfeedback afwijkt van de beoogde staat. Experimenten met Sokoban, ALFWorld, MuSiQue en GSM8K-Hard tonen aan dat TAPE consistent beter presteert dan bestaande frameworks, met bijzonder grote verbeteringen in moeilijke settings: het verbetert de slagingspercentages gemiddeld met 21,0 procentpunten op moeilijke settings, en gemiddeld met 20,0 procentpunten voor zwakkere basismodellen. Code en gegevens beschikbaar op hier.
English
Language Model (LM) agents have demonstrated remarkable capabilities in solving tasks that require multiple interactions with the environment. However, they remain vulnerable in environments where a single error often leads to irrecoverable failure, particularly under strict feasibility constraints. We systematically analyze existing agent frameworks, identifying imperfect planning and stochastic execution as the primary causes. To address these challenges, we propose Tool-guided Adaptive Planning with constrained Execution (TAPE). TAPE enhances planning capability by aggregating multiple plans into a graph and employing an external solver to identify a feasible path. During execution, TAPE employs constrained decoding to reduce sampling noise, while adaptively re-planning whenever environmental feedback deviates from the intended state. Experiments across Sokoban, ALFWorld, MuSiQue, and GSM8K-Hard demonstrate that TAPE consistently outperforms existing frameworks, with particularly large gains on hard settings, improving success rates by 21.0 percentage points on hard settings on average, and by 20.0 percentage points for weaker base models on average. Code and data available at here.