Auto-SLURP: Бенчмарк-набор данных для оценки многоагентных фреймворков в интеллектуальных персональных помощниках
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
April 25, 2025
Авторы: Lei Shen, Xiaoyu Shen
cs.AI
Аннотация
В последние годы многоагентные системы, основанные на крупных языковых моделях (LLM), стрегительно развиваются. Несмотря на этот прогресс, до сих пор отсутствуют специализированные эталонные наборы данных, предназначенные для оценки их производительности. Чтобы устранить этот пробел, мы представляем Auto-SLURP — эталонный набор данных, разработанный для оценки многоагентных систем на основе LLM в контексте интеллектуальных персональных ассистентов. Auto-SLURP расширяет оригинальный набор данных SLURP, изначально созданный для задач понимания естественного языка, путем перемаркировки данных и интеграции симулированных серверов и внешних сервисов. Это улучшение позволяет реализовать комплексный сквозной процесс оценки, охватывающий понимание языка, выполнение задач и генерацию ответов. Наши эксперименты показывают, что Auto-SLURP представляет собой серьезный вызов для современных передовых систем, подчеркивая, что создание действительно надежных и интеллектуальных многоагентных персональных ассистентов остается задачей, требующей дальнейшей разработки. Набор данных и связанный код доступны по адресу https://github.com/lorashen/Auto-SLURP/.
English
In recent years, multi-agent frameworks powered by large language models
(LLMs) have advanced rapidly. Despite this progress, there is still a notable
absence of benchmark datasets specifically tailored to evaluate their
performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset
aimed at evaluating LLM-based multi-agent frameworks in the context of
intelligent personal assistants. Auto-SLURP extends the original SLURP dataset
-- initially developed for natural language understanding tasks -- by
relabeling the data and integrating simulated servers and external services.
This enhancement enables a comprehensive end-to-end evaluation pipeline,
covering language understanding, task execution, and response generation. Our
experiments demonstrate that Auto-SLURP presents a significant challenge for
current state-of-the-art frameworks, highlighting that truly reliable and
intelligent multi-agent personal assistants remain a work in progress. The
dataset and related code are available at
https://github.com/lorashen/Auto-SLURP/.Summary
AI-Generated Summary