Auto-SLURP: Un Conjunto de Datos de Referencia para Evaluar Marcos de Trabajo Multiagente en Asistentes Personales Inteligentes
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
April 25, 2025
Autores: Lei Shen, Xiaoyu Shen
cs.AI
Resumen
En los últimos años, los marcos de trabajo multiagente impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado rápidamente. A pesar de este progreso, aún existe una notable ausencia de conjuntos de datos de referencia específicamente diseñados para evaluar su rendimiento. Para cerrar esta brecha, presentamos Auto-SLURP, un conjunto de datos de referencia destinado a evaluar marcos de trabajo multiagente basados en LLMs en el contexto de asistentes personales inteligentes. Auto-SLURP extiende el conjunto de datos SLURP original —desarrollado inicialmente para tareas de comprensión del lenguaje natural— mediante la reetiquetación de los datos y la integración de servidores simulados y servicios externos. Esta mejora permite una canalización de evaluación integral de extremo a extremo, abarcando la comprensión del lenguaje, la ejecución de tareas y la generación de respuestas. Nuestros experimentos demuestran que Auto-SLURP representa un desafío significativo para los marcos de trabajo más avanzados actualmente, destacando que los asistentes personales multiagente verdaderamente confiables e inteligentes siguen siendo un trabajo en progreso. El conjunto de datos y el código relacionado están disponibles en https://github.com/lorashen/Auto-SLURP/.
English
In recent years, multi-agent frameworks powered by large language models
(LLMs) have advanced rapidly. Despite this progress, there is still a notable
absence of benchmark datasets specifically tailored to evaluate their
performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset
aimed at evaluating LLM-based multi-agent frameworks in the context of
intelligent personal assistants. Auto-SLURP extends the original SLURP dataset
-- initially developed for natural language understanding tasks -- by
relabeling the data and integrating simulated servers and external services.
This enhancement enables a comprehensive end-to-end evaluation pipeline,
covering language understanding, task execution, and response generation. Our
experiments demonstrate that Auto-SLURP presents a significant challenge for
current state-of-the-art frameworks, highlighting that truly reliable and
intelligent multi-agent personal assistants remain a work in progress. The
dataset and related code are available at
https://github.com/lorashen/Auto-SLURP/.Summary
AI-Generated Summary