Auto-SLURP : Un ensemble de données de référence pour l'évaluation des cadres multi-agents dans les assistants personnels intelligents

Résumé

Ces dernières années, les cadres multi-agents alimentés par des modèles de langage de grande taille (LLMs) ont progressé rapidement. Malgré ces avancées, il existe encore une absence notable de jeux de données de référence spécifiquement conçus pour évaluer leurs performances. Pour combler cette lacune, nous présentons Auto-SLURP, un jeu de données de référence visant à évaluer les cadres multi-agents basés sur des LLMs dans le contexte des assistants personnels intelligents. Auto-SLURP étend le jeu de données SLURP original — initialement développé pour des tâches de compréhension du langage naturel — en réétiquetant les données et en intégrant des serveurs simulés et des services externes. Cette amélioration permet une évaluation complète de bout en bout, couvrant la compréhension du langage, l'exécution des tâches et la génération de réponses. Nos expériences démontrent qu'Auto-SLURP représente un défi significatif pour les cadres actuels de pointe, soulignant que les assistants personnels multi-agents véritablement fiables et intelligents restent un travail en cours. Le jeu de données et le code associé sont disponibles à l'adresse https://github.com/lorashen/Auto-SLURP/.

English

In recent years, multi-agent frameworks powered by large language models (LLMs) have advanced rapidly. Despite this progress, there is still a notable absence of benchmark datasets specifically tailored to evaluate their performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset aimed at evaluating LLM-based multi-agent frameworks in the context of intelligent personal assistants. Auto-SLURP extends the original SLURP dataset -- initially developed for natural language understanding tasks -- by relabeling the data and integrating simulated servers and external services. This enhancement enables a comprehensive end-to-end evaluation pipeline, covering language understanding, task execution, and response generation. Our experiments demonstrate that Auto-SLURP presents a significant challenge for current state-of-the-art frameworks, highlighting that truly reliable and intelligent multi-agent personal assistants remain a work in progress. The dataset and related code are available at https://github.com/lorashen/Auto-SLURP/.