Auto-SLURP: Um Conjunto de Dados de Referência para Avaliação de Estruturas Multiagente em Assistentes Pessoais Inteligentes

Resumo

Nos últimos anos, os frameworks multiagentes impulsionados por modelos de linguagem de grande escala (LLMs) avançaram rapidamente. Apesar desse progresso, ainda há uma ausência notável de conjuntos de dados de referência especificamente projetados para avaliar seu desempenho. Para preencher essa lacuna, apresentamos o Auto-SLURP, um conjunto de dados de referência voltado para a avaliação de frameworks multiagentes baseados em LLMs no contexto de assistentes pessoais inteligentes. O Auto-SLURP estende o conjunto de dados SLURP original — inicialmente desenvolvido para tarefas de compreensão de linguagem natural — por meio da reclassificação dos dados e da integração de servidores simulados e serviços externos. Esse aprimoramento permite um pipeline de avaliação abrangente de ponta a ponta, cobrindo compreensão de linguagem, execução de tarefas e geração de respostas. Nossos experimentos demonstram que o Auto-SLURP representa um desafio significativo para os frameworks mais avançados atualmente, destacando que assistentes pessoais multiagentes verdadeiramente confiáveis e inteligentes ainda estão em desenvolvimento. O conjunto de dados e o código relacionado estão disponíveis em https://github.com/lorashen/Auto-SLURP/.

English

In recent years, multi-agent frameworks powered by large language models (LLMs) have advanced rapidly. Despite this progress, there is still a notable absence of benchmark datasets specifically tailored to evaluate their performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset aimed at evaluating LLM-based multi-agent frameworks in the context of intelligent personal assistants. Auto-SLURP extends the original SLURP dataset -- initially developed for natural language understanding tasks -- by relabeling the data and integrating simulated servers and external services. This enhancement enables a comprehensive end-to-end evaluation pipeline, covering language understanding, task execution, and response generation. Our experiments demonstrate that Auto-SLURP presents a significant challenge for current state-of-the-art frameworks, highlighting that truly reliable and intelligent multi-agent personal assistants remain a work in progress. The dataset and related code are available at https://github.com/lorashen/Auto-SLURP/.

Auto-SLURP: Um Conjunto de Dados de Referência para Avaliação de Estruturas Multiagente em Assistentes Pessoais Inteligentes

Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Resumo

Support