Auto-SLURP : Un ensemble de données de référence pour l'évaluation des cadres multi-agents dans les assistants personnels intelligents
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
April 25, 2025
Auteurs: Lei Shen, Xiaoyu Shen
cs.AI
Résumé
Ces dernières années, les cadres multi-agents alimentés par des modèles de langage de grande taille (LLMs) ont progressé rapidement. Malgré ces avancées, il existe encore une absence notable de jeux de données de référence spécifiquement conçus pour évaluer leurs performances. Pour combler cette lacune, nous présentons Auto-SLURP, un jeu de données de référence visant à évaluer les cadres multi-agents basés sur des LLMs dans le contexte des assistants personnels intelligents. Auto-SLURP étend le jeu de données SLURP original — initialement développé pour des tâches de compréhension du langage naturel — en réétiquetant les données et en intégrant des serveurs simulés et des services externes. Cette amélioration permet une évaluation complète de bout en bout, couvrant la compréhension du langage, l'exécution des tâches et la génération de réponses. Nos expériences démontrent qu'Auto-SLURP représente un défi significatif pour les cadres actuels de pointe, soulignant que les assistants personnels multi-agents véritablement fiables et intelligents restent un travail en cours. Le jeu de données et le code associé sont disponibles à l'adresse https://github.com/lorashen/Auto-SLURP/.
English
In recent years, multi-agent frameworks powered by large language models
(LLMs) have advanced rapidly. Despite this progress, there is still a notable
absence of benchmark datasets specifically tailored to evaluate their
performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset
aimed at evaluating LLM-based multi-agent frameworks in the context of
intelligent personal assistants. Auto-SLURP extends the original SLURP dataset
-- initially developed for natural language understanding tasks -- by
relabeling the data and integrating simulated servers and external services.
This enhancement enables a comprehensive end-to-end evaluation pipeline,
covering language understanding, task execution, and response generation. Our
experiments demonstrate that Auto-SLURP presents a significant challenge for
current state-of-the-art frameworks, highlighting that truly reliable and
intelligent multi-agent personal assistants remain a work in progress. The
dataset and related code are available at
https://github.com/lorashen/Auto-SLURP/.Summary
AI-Generated Summary