BOLAA: 大規模言語モデル拡張自律エージェントのベンチマーキングとオーケストレーション
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
August 11, 2023
著者: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI
要旨
大規模言語モデル(LLM)の大きな成功は、LLMを活用した自律エージェント(LAA)の新たな探求を促しています。LAAは、その中核となるLLMを用いて行動を生成し、環境と相互作用することが可能であり、過去の観察や行動などの相互作用を条件として複雑なタスクを解決する能力を促進します。LAAの研究はまだ非常に新しいため、限られた探求しか行われていません。そこで、本論文では、エージェントアーキテクチャとLLMバックボーンの両面からLAAの包括的な比較を提供します。さらに、複数のLAAを調整する新しい戦略を提案します。この戦略では、各LAAが特定のタイプの行動に集中し、コントローラーが複数のエージェント間のコミュニケーションを管理します(BOLAA)。意思決定と多段階推論の環境でシミュレーションを行い、LAAの能力を包括的に検証します。性能結果は、LAAアーキテクチャの設計、LLMの最適な選択、および両者の互換性に関する定量的な示唆を提供します。LAAの実装コードをhttps://github.com/salesforce/BOLAAで公開しています。
English
The massive successes of large language models (LLMs) encourage the emerging
exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to
generate actions with its core LLM and interact with environments, which
facilitates the ability to resolve complex tasks by conditioning on past
interactions such as observations and actions. Since the investigation of LAA
is still very recent, limited explorations are available. Therefore, we provide
a comprehensive comparison of LAA in terms of both agent architectures and LLM
backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs
such that each labor LAA focuses on one type of action, i.e. BOLAA,
where a controller manages the communication among multiple agents. We conduct
simulations on both decision-making and multi-step reasoning environments,
which comprehensively justify the capacity of LAAs. Our performance results
provide quantitative suggestions for designing LAA architectures and the
optimal choice of LLMs, as well as the compatibility of both. We release our
implementation code of LAAs to the public at
https://github.com/salesforce/BOLAA.