TAPE: 言語モデルエージェントにおけるツール誘導型適応計画と制約付き実行

要旨

言語モデル（LM）エージェントは、環境との複数回の相互作用を必要とするタスクの解決において顕著な能力を発揮する。しかし、単一の誤りが回復不能な失敗につながる環境、特に厳格な実行可能性制約下では脆弱性が残る。我々は既存のエージェントフレームワークを体系的に分析し、不完全な計画と確率的な実行が主原因であることを明らかにした。これらの課題に対処するため、制約付き実行によるツール誘導型適応計画（TAPE）を提案する。TAPEは、複数の計画をグラフに集約し外部ソルバーを用いて実行可能経路を特定することで計画能力を強化する。実行時には、制約付きデコーディングによりサンプリングノイズを低減し、環境フィードバックが期待状態から逸脱した際には適応的に再計画を行う。Sokoban、ALFWorld、MuSiQue、GSM8K-Hardにおける実験により、TAPEが既存フレームワークを一貫して凌駕し、特に困難な設定で大きな改善（困難設定では平均21.0ポイント、弱い基底モデルでは平均20.0ポイントの成功率向上）を示すことを実証した。コードとデータはこちらで公開している。

English

Language Model (LM) agents have demonstrated remarkable capabilities in solving tasks that require multiple interactions with the environment. However, they remain vulnerable in environments where a single error often leads to irrecoverable failure, particularly under strict feasibility constraints. We systematically analyze existing agent frameworks, identifying imperfect planning and stochastic execution as the primary causes. To address these challenges, we propose Tool-guided Adaptive Planning with constrained Execution (TAPE). TAPE enhances planning capability by aggregating multiple plans into a graph and employing an external solver to identify a feasible path. During execution, TAPE employs constrained decoding to reduce sampling noise, while adaptively re-planning whenever environmental feedback deviates from the intended state. Experiments across Sokoban, ALFWorld, MuSiQue, and GSM8K-Hard demonstrate that TAPE consistently outperforms existing frameworks, with particularly large gains on hard settings, improving success rates by 21.0 percentage points on hard settings on average, and by 20.0 percentage points for weaker base models on average. Code and data available at here.

TAPE: 言語モデルエージェントにおけるツール誘導型適応計画と制約付き実行

TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents

要旨

Support