BOLAA: Avaliação e Orquestração de Agentes Autônomos Aumentados por LLMs
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
August 11, 2023
Autores: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI
Resumo
Os grandes sucessos dos modelos de linguagem de grande escala (LLMs) incentivam a exploração emergente de Agentes Autônomos Aumentados por LLMs (LAAs). Um LAA é capaz de gerar ações com seu LLM central e interagir com ambientes, o que facilita a capacidade de resolver tarefas complexas ao se condicionar a interações passadas, como observações e ações. Como a investigação de LAAs ainda é muito recente, há explorações limitadas disponíveis. Portanto, fornecemos uma comparação abrangente de LAAs em termos de arquiteturas de agentes e modelos de LLM. Além disso, propomos uma nova estratégia para orquestrar múltiplos LAAs, de modo que cada LAA de trabalho se concentre em um tipo de ação, ou seja, BOLAA, onde um controlador gerencia a comunicação entre múltiplos agentes. Realizamos simulações em ambientes de tomada de decisão e raciocínio de múltiplos passos, que justificam de forma abrangente a capacidade dos LAAs. Nossos resultados de desempenho fornecem sugestões quantitativas para o design de arquiteturas de LAAs e a escolha ideal de LLMs, bem como a compatibilidade de ambos. Disponibilizamos nosso código de implementação de LAAs publicamente em https://github.com/salesforce/BOLAA.
English
The massive successes of large language models (LLMs) encourage the emerging
exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to
generate actions with its core LLM and interact with environments, which
facilitates the ability to resolve complex tasks by conditioning on past
interactions such as observations and actions. Since the investigation of LAA
is still very recent, limited explorations are available. Therefore, we provide
a comprehensive comparison of LAA in terms of both agent architectures and LLM
backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs
such that each labor LAA focuses on one type of action, i.e. BOLAA,
where a controller manages the communication among multiple agents. We conduct
simulations on both decision-making and multi-step reasoning environments,
which comprehensively justify the capacity of LAAs. Our performance results
provide quantitative suggestions for designing LAA architectures and the
optimal choice of LLMs, as well as the compatibility of both. We release our
implementation code of LAAs to the public at
https://github.com/salesforce/BOLAA.