BOLAA: Бенчмаркинг и Оркестрация Автономных Агентов, Усиленных Большими Языковыми Моделями
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
August 11, 2023
Авторы: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
cs.AI
Аннотация
Огромные успехи крупных языковых моделей (LLM) стимулируют активное исследование автономных агентов, усиленных LLM (LAA). LAA способен генерировать действия с использованием своей основной LLM и взаимодействовать с окружающей средой, что позволяет решать сложные задачи, учитывая прошлые взаимодействия, такие как наблюдения и действия. Поскольку исследование LAA является весьма новым, доступно ограниченное количество исследований. Поэтому мы предоставляем всестороннее сравнение LAA с точки зрения как архитектур агентов, так и базовых LLM. Кроме того, мы предлагаем новую стратегию для координации нескольких LAA, при которой каждый отдельный LAA фокусируется на одном типе действий, т.е. BOLAA, где контроллер управляет взаимодействием между несколькими агентами. Мы проводим симуляции в средах, связанных с принятием решений и многошаговым рассуждением, что всесторонне подтверждает возможности LAA. Наши результаты производительности предоставляют количественные рекомендации для проектирования архитектур LAA, оптимального выбора LLM, а также их совместимости. Мы публикуем наш код реализации LAA в открытый доступ по адресу https://github.com/salesforce/BOLAA.
English
The massive successes of large language models (LLMs) encourage the emerging
exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to
generate actions with its core LLM and interact with environments, which
facilitates the ability to resolve complex tasks by conditioning on past
interactions such as observations and actions. Since the investigation of LAA
is still very recent, limited explorations are available. Therefore, we provide
a comprehensive comparison of LAA in terms of both agent architectures and LLM
backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs
such that each labor LAA focuses on one type of action, i.e. BOLAA,
where a controller manages the communication among multiple agents. We conduct
simulations on both decision-making and multi-step reasoning environments,
which comprehensively justify the capacity of LAAs. Our performance results
provide quantitative suggestions for designing LAA architectures and the
optimal choice of LLMs, as well as the compatibility of both. We release our
implementation code of LAAs to the public at
https://github.com/salesforce/BOLAA.