Auto-SLURP: Een Benchmarkdataset voor het Evalueren van Multi-Agent Frameworks in Slimme Persoonlijke Assistenten
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
April 25, 2025
Auteurs: Lei Shen, Xiaoyu Shen
cs.AI
Samenvatting
De afgelopen jaren hebben multi-agent frameworks aangedreven door grote taalmodellen (LLMs) een snelle vooruitgang geboekt. Ondanks deze vooruitgang is er nog steeds een opvallend gebrek aan benchmarkdatasets die specifiek zijn ontworpen om hun prestaties te evalueren. Om deze kloof te overbruggen, introduceren wij Auto-SLURP, een benchmarkdataset gericht op het evalueren van LLM-gebaseerde multi-agent frameworks in de context van intelligente persoonlijke assistenten. Auto-SLURP breidt de originele SLURP-dataset uit -- aanvankelijk ontwikkeld voor taken op het gebied van natuurlijke taalverwerking -- door de data opnieuw te labelen en gesimuleerde servers en externe services te integreren. Deze verbetering maakt een uitgebreide end-to-end evaluatiepijplijn mogelijk, die taalbegrip, taakuitvoering en responsgeneratie omvat. Onze experimenten tonen aan dat Auto-SLURP een aanzienlijke uitdaging vormt voor de huidige state-of-the-art frameworks, wat benadrukt dat echt betrouwbare en intelligente multi-agent persoonlijke assistenten nog in ontwikkeling zijn. De dataset en gerelateerde code zijn beschikbaar op https://github.com/lorashen/Auto-SLURP/.
English
In recent years, multi-agent frameworks powered by large language models
(LLMs) have advanced rapidly. Despite this progress, there is still a notable
absence of benchmark datasets specifically tailored to evaluate their
performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset
aimed at evaluating LLM-based multi-agent frameworks in the context of
intelligent personal assistants. Auto-SLURP extends the original SLURP dataset
-- initially developed for natural language understanding tasks -- by
relabeling the data and integrating simulated servers and external services.
This enhancement enables a comprehensive end-to-end evaluation pipeline,
covering language understanding, task execution, and response generation. Our
experiments demonstrate that Auto-SLURP presents a significant challenge for
current state-of-the-art frameworks, highlighting that truly reliable and
intelligent multi-agent personal assistants remain a work in progress. The
dataset and related code are available at
https://github.com/lorashen/Auto-SLURP/.