ChatPaper.aiChatPaper

Auto-SLURP: Un Conjunto de Datos de Referencia para Evaluar Marcos de Trabajo Multiagente en Asistentes Personales Inteligentes

Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

April 25, 2025
Autores: Lei Shen, Xiaoyu Shen
cs.AI

Resumen

En los últimos años, los marcos de trabajo multiagente impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado rápidamente. A pesar de este progreso, aún existe una notable ausencia de conjuntos de datos de referencia específicamente diseñados para evaluar su rendimiento. Para cerrar esta brecha, presentamos Auto-SLURP, un conjunto de datos de referencia destinado a evaluar marcos de trabajo multiagente basados en LLMs en el contexto de asistentes personales inteligentes. Auto-SLURP extiende el conjunto de datos SLURP original —desarrollado inicialmente para tareas de comprensión del lenguaje natural— mediante la reetiquetación de los datos y la integración de servidores simulados y servicios externos. Esta mejora permite una canalización de evaluación integral de extremo a extremo, abarcando la comprensión del lenguaje, la ejecución de tareas y la generación de respuestas. Nuestros experimentos demuestran que Auto-SLURP representa un desafío significativo para los marcos de trabajo más avanzados actualmente, destacando que los asistentes personales multiagente verdaderamente confiables e inteligentes siguen siendo un trabajo en progreso. El conjunto de datos y el código relacionado están disponibles en https://github.com/lorashen/Auto-SLURP/.
English
In recent years, multi-agent frameworks powered by large language models (LLMs) have advanced rapidly. Despite this progress, there is still a notable absence of benchmark datasets specifically tailored to evaluate their performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset aimed at evaluating LLM-based multi-agent frameworks in the context of intelligent personal assistants. Auto-SLURP extends the original SLURP dataset -- initially developed for natural language understanding tasks -- by relabeling the data and integrating simulated servers and external services. This enhancement enables a comprehensive end-to-end evaluation pipeline, covering language understanding, task execution, and response generation. Our experiments demonstrate that Auto-SLURP presents a significant challenge for current state-of-the-art frameworks, highlighting that truly reliable and intelligent multi-agent personal assistants remain a work in progress. The dataset and related code are available at https://github.com/lorashen/Auto-SLURP/.

Summary

AI-Generated Summary

PDF21May 7, 2025