BOLAA: Benchmarking e Orchestrazione di Agenti Autonomi Potenziati da LLM

Abstract

I successi significativi dei grandi modelli linguistici (LLM) incoraggiano l'esplorazione emergente degli Agenti Autonomi Potenziati da LLM (LAA). Un LAA è in grado di generare azioni attraverso il suo LLM centrale e interagire con l'ambiente, facilitando la risoluzione di compiti complessi condizionando le interazioni passate, come osservazioni e azioni. Poiché l'indagine sugli LAA è ancora molto recente, sono disponibili esplorazioni limitate. Pertanto, forniamo un confronto completo degli LAA in termini sia di architetture degli agenti che di modelli LLM di base. Inoltre, proponiamo una nuova strategia per orchestrare più LAA in modo che ciascun LAA si concentri su un tipo specifico di azione, ovvero BOLAA, dove un controller gestisce la comunicazione tra più agenti. Eseguiamo simulazioni in ambienti di decision-making e ragionamento multi-step, che giustificano in modo completo le capacità degli LAA. I nostri risultati forniscono suggerimenti quantitativi per la progettazione delle architetture LAA e la scelta ottimale degli LLM, nonché la compatibilità di entrambi. Rilasciamo il nostro codice di implementazione degli LAA al pubblico all'indirizzo https://github.com/salesforce/BOLAA.

English

The massive successes of large language models (LLMs) encourage the emerging exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to generate actions with its core LLM and interact with environments, which facilitates the ability to resolve complex tasks by conditioning on past interactions such as observations and actions. Since the investigation of LAA is still very recent, limited explorations are available. Therefore, we provide a comprehensive comparison of LAA in terms of both agent architectures and LLM backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs such that each labor LAA focuses on one type of action, i.e. BOLAA, where a controller manages the communication among multiple agents. We conduct simulations on both decision-making and multi-step reasoning environments, which comprehensively justify the capacity of LAAs. Our performance results provide quantitative suggestions for designing LAA architectures and the optimal choice of LLMs, as well as the compatibility of both. We release our implementation code of LAAs to the public at https://github.com/salesforce/BOLAA.

BOLAA: Benchmarking e Orchestrazione di Agenti Autonomi Potenziati da LLM

BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

Abstract

Support