BOLAA: Evaluación y Orquestación de Agentes Autónomos Aumentados con Modelos de Lenguaje
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
August 11, 2023
Autores: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI
Resumen
Los enormes éxitos de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) fomentan la exploración emergente de Agentes Autónomos Aumentados con LLMs (LAAs, por sus siglas en inglés). Un LAA es capaz de generar acciones mediante su LLM central e interactuar con entornos, lo que facilita la capacidad de resolver tareas complejas al condicionarse en interacciones pasadas, como observaciones y acciones. Dado que la investigación sobre los LAAs es aún muy reciente, existen exploraciones limitadas. Por lo tanto, ofrecemos una comparación exhaustiva de los LAAs en términos tanto de arquitecturas de agentes como de modelos de lenguaje subyacentes. Además, proponemos una nueva estrategia para orquestar múltiples LAAs, de modo que cada LAA se enfoque en un tipo de acción específico, es decir, BOLAA, donde un controlador gestiona la comunicación entre múltiples agentes. Realizamos simulaciones en entornos tanto de toma de decisiones como de razonamiento de múltiples pasos, lo que justifica de manera integral la capacidad de los LAAs. Nuestros resultados de rendimiento ofrecen sugerencias cuantitativas para el diseño de arquitecturas de LAAs y la elección óptima de LLMs, así como la compatibilidad de ambos. Publicamos nuestro código de implementación de LAAs en https://github.com/salesforce/BOLAA.
English
The massive successes of large language models (LLMs) encourage the emerging
exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to
generate actions with its core LLM and interact with environments, which
facilitates the ability to resolve complex tasks by conditioning on past
interactions such as observations and actions. Since the investigation of LAA
is still very recent, limited explorations are available. Therefore, we provide
a comprehensive comparison of LAA in terms of both agent architectures and LLM
backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs
such that each labor LAA focuses on one type of action, i.e. BOLAA,
where a controller manages the communication among multiple agents. We conduct
simulations on both decision-making and multi-step reasoning environments,
which comprehensively justify the capacity of LAAs. Our performance results
provide quantitative suggestions for designing LAA architectures and the
optimal choice of LLMs, as well as the compatibility of both. We release our
implementation code of LAAs to the public at
https://github.com/salesforce/BOLAA.