Auto-SLURP: Un Dataset di Benchmark per la Valutazione di Framework Multi-Agente negli Assistenti Personali Intelligenti
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
April 25, 2025
Autori: Lei Shen, Xiaoyu Shen
cs.AI
Abstract
Negli ultimi anni, i framework multi-agente basati su modelli linguistici di grandi dimensioni (LLM) hanno fatto rapidi progressi. Nonostante questi avanzamenti, si riscontra ancora una notevole assenza di dataset di benchmark specificamente progettati per valutarne le prestazioni. Per colmare questa lacuna, introduciamo Auto-SLURP, un dataset di benchmark mirato a valutare i framework multi-agente basati su LLM nel contesto degli assistenti personali intelligenti. Auto-SLURP estende il dataset SLURP originale — inizialmente sviluppato per compiti di comprensione del linguaggio naturale — rietichettando i dati e integrando server simulati e servizi esterni. Questo potenziamento consente una pipeline di valutazione end-to-end completa, che copre la comprensione del linguaggio, l'esecuzione dei compiti e la generazione delle risposte. I nostri esperimenti dimostrano che Auto-SLURP rappresenta una sfida significativa per gli attuali framework all'avanguardia, evidenziando che assistenti personali multi-agente veramente affidabili e intelligenti rimangono un lavoro in corso. Il dataset e il codice correlato sono disponibili all'indirizzo https://github.com/lorashen/Auto-SLURP/.
English
In recent years, multi-agent frameworks powered by large language models
(LLMs) have advanced rapidly. Despite this progress, there is still a notable
absence of benchmark datasets specifically tailored to evaluate their
performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset
aimed at evaluating LLM-based multi-agent frameworks in the context of
intelligent personal assistants. Auto-SLURP extends the original SLURP dataset
-- initially developed for natural language understanding tasks -- by
relabeling the data and integrating simulated servers and external services.
This enhancement enables a comprehensive end-to-end evaluation pipeline,
covering language understanding, task execution, and response generation. Our
experiments demonstrate that Auto-SLURP presents a significant challenge for
current state-of-the-art frameworks, highlighting that truly reliable and
intelligent multi-agent personal assistants remain a work in progress. The
dataset and related code are available at
https://github.com/lorashen/Auto-SLURP/.