Auto-SLURP: Un Dataset di Benchmark per la Valutazione di Framework Multi-Agente negli Assistenti Personali Intelligenti

Abstract

Negli ultimi anni, i framework multi-agente basati su modelli linguistici di grandi dimensioni (LLM) hanno fatto rapidi progressi. Nonostante questi avanzamenti, si riscontra ancora una notevole assenza di dataset di benchmark specificamente progettati per valutarne le prestazioni. Per colmare questa lacuna, introduciamo Auto-SLURP, un dataset di benchmark mirato a valutare i framework multi-agente basati su LLM nel contesto degli assistenti personali intelligenti. Auto-SLURP estende il dataset SLURP originale — inizialmente sviluppato per compiti di comprensione del linguaggio naturale — rietichettando i dati e integrando server simulati e servizi esterni. Questo potenziamento consente una pipeline di valutazione end-to-end completa, che copre la comprensione del linguaggio, l'esecuzione dei compiti e la generazione delle risposte. I nostri esperimenti dimostrano che Auto-SLURP rappresenta una sfida significativa per gli attuali framework all'avanguardia, evidenziando che assistenti personali multi-agente veramente affidabili e intelligenti rimangono un lavoro in corso. Il dataset e il codice correlato sono disponibili all'indirizzo https://github.com/lorashen/Auto-SLURP/.

English

In recent years, multi-agent frameworks powered by large language models (LLMs) have advanced rapidly. Despite this progress, there is still a notable absence of benchmark datasets specifically tailored to evaluate their performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset aimed at evaluating LLM-based multi-agent frameworks in the context of intelligent personal assistants. Auto-SLURP extends the original SLURP dataset -- initially developed for natural language understanding tasks -- by relabeling the data and integrating simulated servers and external services. This enhancement enables a comprehensive end-to-end evaluation pipeline, covering language understanding, task execution, and response generation. Our experiments demonstrate that Auto-SLURP presents a significant challenge for current state-of-the-art frameworks, highlighting that truly reliable and intelligent multi-agent personal assistants remain a work in progress. The dataset and related code are available at https://github.com/lorashen/Auto-SLURP/.

Auto-SLURP: Un Dataset di Benchmark per la Valutazione di Framework Multi-Agente negli Assistenti Personali Intelligenti

Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Abstract

Support