Auto-SLURP: Een Benchmarkdataset voor het Evalueren van Multi-Agent Frameworks in Slimme Persoonlijke Assistenten

Samenvatting

De afgelopen jaren hebben multi-agent frameworks aangedreven door grote taalmodellen (LLMs) een snelle vooruitgang geboekt. Ondanks deze vooruitgang is er nog steeds een opvallend gebrek aan benchmarkdatasets die specifiek zijn ontworpen om hun prestaties te evalueren. Om deze kloof te overbruggen, introduceren wij Auto-SLURP, een benchmarkdataset gericht op het evalueren van LLM-gebaseerde multi-agent frameworks in de context van intelligente persoonlijke assistenten. Auto-SLURP breidt de originele SLURP-dataset uit -- aanvankelijk ontwikkeld voor taken op het gebied van natuurlijke taalverwerking -- door de data opnieuw te labelen en gesimuleerde servers en externe services te integreren. Deze verbetering maakt een uitgebreide end-to-end evaluatiepijplijn mogelijk, die taalbegrip, taakuitvoering en responsgeneratie omvat. Onze experimenten tonen aan dat Auto-SLURP een aanzienlijke uitdaging vormt voor de huidige state-of-the-art frameworks, wat benadrukt dat echt betrouwbare en intelligente multi-agent persoonlijke assistenten nog in ontwikkeling zijn. De dataset en gerelateerde code zijn beschikbaar op https://github.com/lorashen/Auto-SLURP/.

English

In recent years, multi-agent frameworks powered by large language models (LLMs) have advanced rapidly. Despite this progress, there is still a notable absence of benchmark datasets specifically tailored to evaluate their performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset aimed at evaluating LLM-based multi-agent frameworks in the context of intelligent personal assistants. Auto-SLURP extends the original SLURP dataset -- initially developed for natural language understanding tasks -- by relabeling the data and integrating simulated servers and external services. This enhancement enables a comprehensive end-to-end evaluation pipeline, covering language understanding, task execution, and response generation. Our experiments demonstrate that Auto-SLURP presents a significant challenge for current state-of-the-art frameworks, highlighting that truly reliable and intelligent multi-agent personal assistants remain a work in progress. The dataset and related code are available at https://github.com/lorashen/Auto-SLURP/.

Auto-SLURP: Een Benchmarkdataset voor het Evalueren van Multi-Agent Frameworks in Slimme Persoonlijke Assistenten

Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Samenvatting

Support