ChatPaper.aiChatPaper

BOLAA : Benchmarking et Orchestration des Agents Autonomes Augmentés par des LLM

BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

August 11, 2023
Auteurs: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI

Résumé

Les succès massifs des grands modèles de langage (LLMs) encouragent l'exploration émergente des agents autonomes augmentés par LLM (LAAs). Un LAA est capable de générer des actions grâce à son LLM central et d'interagir avec des environnements, ce qui facilite la résolution de tâches complexes en se basant sur des interactions passées telles que des observations et des actions. Étant donné que l'étude des LAAs est encore très récente, les explorations disponibles sont limitées. Par conséquent, nous proposons une comparaison approfondie des LAAs en termes d'architectures d'agents et de modèles LLM de base. De plus, nous proposons une nouvelle stratégie pour orchestrer plusieurs LAAs de sorte que chaque LAA spécialisé se concentre sur un type d'action spécifique, c'est-à-dire BOLAA, où un contrôleur gère la communication entre plusieurs agents. Nous menons des simulations dans des environnements de prise de décision et de raisonnement multi-étapes, ce qui justifie de manière exhaustive les capacités des LAAs. Nos résultats de performance fournissent des suggestions quantitatives pour la conception des architectures de LAAs, le choix optimal des LLMs, ainsi que la compatibilité des deux. Nous rendons public notre code d'implémentation des LAAs à l'adresse suivante : https://github.com/salesforce/BOLAA.
English
The massive successes of large language models (LLMs) encourage the emerging exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to generate actions with its core LLM and interact with environments, which facilitates the ability to resolve complex tasks by conditioning on past interactions such as observations and actions. Since the investigation of LAA is still very recent, limited explorations are available. Therefore, we provide a comprehensive comparison of LAA in terms of both agent architectures and LLM backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs such that each labor LAA focuses on one type of action, i.e. BOLAA, where a controller manages the communication among multiple agents. We conduct simulations on both decision-making and multi-step reasoning environments, which comprehensively justify the capacity of LAAs. Our performance results provide quantitative suggestions for designing LAA architectures and the optimal choice of LLMs, as well as the compatibility of both. We release our implementation code of LAAs to the public at https://github.com/salesforce/BOLAA.
PDF192December 15, 2024