Auto-SLURP: Um Conjunto de Dados de Referência para Avaliação de Estruturas Multiagente em Assistentes Pessoais Inteligentes
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
April 25, 2025
Autores: Lei Shen, Xiaoyu Shen
cs.AI
Resumo
Nos últimos anos, os frameworks multiagentes impulsionados por modelos de linguagem de grande escala (LLMs) avançaram rapidamente. Apesar desse progresso, ainda há uma ausência notável de conjuntos de dados de referência especificamente projetados para avaliar seu desempenho. Para preencher essa lacuna, apresentamos o Auto-SLURP, um conjunto de dados de referência voltado para a avaliação de frameworks multiagentes baseados em LLMs no contexto de assistentes pessoais inteligentes. O Auto-SLURP estende o conjunto de dados SLURP original — inicialmente desenvolvido para tarefas de compreensão de linguagem natural — por meio da reclassificação dos dados e da integração de servidores simulados e serviços externos. Esse aprimoramento permite um pipeline de avaliação abrangente de ponta a ponta, cobrindo compreensão de linguagem, execução de tarefas e geração de respostas. Nossos experimentos demonstram que o Auto-SLURP representa um desafio significativo para os frameworks mais avançados atualmente, destacando que assistentes pessoais multiagentes verdadeiramente confiáveis e inteligentes ainda estão em desenvolvimento. O conjunto de dados e o código relacionado estão disponíveis em https://github.com/lorashen/Auto-SLURP/.
English
In recent years, multi-agent frameworks powered by large language models
(LLMs) have advanced rapidly. Despite this progress, there is still a notable
absence of benchmark datasets specifically tailored to evaluate their
performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset
aimed at evaluating LLM-based multi-agent frameworks in the context of
intelligent personal assistants. Auto-SLURP extends the original SLURP dataset
-- initially developed for natural language understanding tasks -- by
relabeling the data and integrating simulated servers and external services.
This enhancement enables a comprehensive end-to-end evaluation pipeline,
covering language understanding, task execution, and response generation. Our
experiments demonstrate that Auto-SLURP presents a significant challenge for
current state-of-the-art frameworks, highlighting that truly reliable and
intelligent multi-agent personal assistants remain a work in progress. The
dataset and related code are available at
https://github.com/lorashen/Auto-SLURP/.