ToolChain*: A*探索を用いた大規模言語モデルにおける効率的な行動空間ナビゲーション
ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search
October 20, 2023
著者: Yuchen Zhuang, Xiang Chen, Tong Yu, Saayan Mitra, Victor Bursztyn, Ryan A. Rossi, Somdeb Sarkhel, Chao Zhang
cs.AI
要旨
大規模言語モデル(LLMs)は、複雑な現実世界の問題を解決する際に強力な意思決定および計画能力を示している。LLMベースの自律エージェントは、多様なツール(例えば、機能的なAPI)と相互作用し、段階的に一連のAPI関数呼び出しを実行する解決策プランを生成することができる。多数の候補となるAPI関数呼び出しは、行動空間を大幅に拡大し、効率的な行動空間ナビゲーションの必要性を高めている。しかし、既存の手法は、広大な行動空間における一方向的な探索に苦しみ、局所最適解に陥るか、あるいはすべての潜在的な行動を網羅的に探索するため、非効率なナビゲーションを引き起こす。これらの問題に対処するため、我々はToolChain*を提案する。これは、LLMベースのエージェントのための効率的な木探索ベースの計画アルゴリズムである。ToolChain*は、全体の行動空間を決定木として定式化し、各ノードは解決策プランに関与する可能性のあるAPI関数呼び出しを表す。A*探索アルゴリズムをタスク固有のコスト関数設計と組み合わせることで、誤った行動を含む可能性のある高コストの枝を効率的に刈り込み、最も低コストの有効なパスを解決策として特定する。複数のツール使用および推論タスクにおける広範な実験により、ToolChain*が広大な行動空間内で探索と活用を効率的にバランスさせることが示された。ToolChain*は、計画および推論タスクにおいて、最新のベースラインを平均3.1%および3.5%上回り、それぞれ7.35倍および2.31倍少ない時間を要する。
English
Large language models (LLMs) have demonstrated powerful decision-making and
planning capabilities in solving complicated real-world problems. LLM-based
autonomous agents can interact with diverse tools (e.g., functional APIs) and
generate solution plans that execute a series of API function calls in a
step-by-step manner. The multitude of candidate API function calls
significantly expands the action space, amplifying the critical need for
efficient action space navigation. However, existing methods either struggle
with unidirectional exploration in expansive action spaces, trapped into a
locally optimal solution, or suffer from exhaustively traversing all potential
actions, causing inefficient navigation. To address these issues, we propose
ToolChain*, an efficient tree search-based planning algorithm for LLM-based
agents. It formulates the entire action space as a decision tree, where each
node represents a possible API function call involved in a solution plan. By
incorporating the A* search algorithm with task-specific cost function design,
it efficiently prunes high-cost branches that may involve incorrect actions,
identifying the most low-cost valid path as the solution. Extensive experiments
on multiple tool-use and reasoning tasks demonstrate that ToolChain*
efficiently balances exploration and exploitation within an expansive action
space. It outperforms state-of-the-art baselines on planning and reasoning
tasks by 3.1% and 3.5% on average while requiring 7.35x and 2.31x less time,
respectively.