Auto-SLURP: Un Conjunto de Datos de Referencia para Evaluar Marcos de Trabajo Multiagente en Asistentes Personales Inteligentes

Resumen

En los últimos años, los marcos de trabajo multiagente impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado rápidamente. A pesar de este progreso, aún existe una notable ausencia de conjuntos de datos de referencia específicamente diseñados para evaluar su rendimiento. Para cerrar esta brecha, presentamos Auto-SLURP, un conjunto de datos de referencia destinado a evaluar marcos de trabajo multiagente basados en LLMs en el contexto de asistentes personales inteligentes. Auto-SLURP extiende el conjunto de datos SLURP original —desarrollado inicialmente para tareas de comprensión del lenguaje natural— mediante la reetiquetación de los datos y la integración de servidores simulados y servicios externos. Esta mejora permite una canalización de evaluación integral de extremo a extremo, abarcando la comprensión del lenguaje, la ejecución de tareas y la generación de respuestas. Nuestros experimentos demuestran que Auto-SLURP representa un desafío significativo para los marcos de trabajo más avanzados actualmente, destacando que los asistentes personales multiagente verdaderamente confiables e inteligentes siguen siendo un trabajo en progreso. El conjunto de datos y el código relacionado están disponibles en https://github.com/lorashen/Auto-SLURP/.

English

In recent years, multi-agent frameworks powered by large language models (LLMs) have advanced rapidly. Despite this progress, there is still a notable absence of benchmark datasets specifically tailored to evaluate their performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset aimed at evaluating LLM-based multi-agent frameworks in the context of intelligent personal assistants. Auto-SLURP extends the original SLURP dataset -- initially developed for natural language understanding tasks -- by relabeling the data and integrating simulated servers and external services. This enhancement enables a comprehensive end-to-end evaluation pipeline, covering language understanding, task execution, and response generation. Our experiments demonstrate that Auto-SLURP presents a significant challenge for current state-of-the-art frameworks, highlighting that truly reliable and intelligent multi-agent personal assistants remain a work in progress. The dataset and related code are available at https://github.com/lorashen/Auto-SLURP/.