Auto-SLURP: 스마트 개인 비서를 위한 다중 에이전트 프레임워크 평가를 위한 벤치마크 데이터셋
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant
April 25, 2025
저자: Lei Shen, Xiaoyu Shen
cs.AI
초록
최근 몇 년간 대규모 언어 모델(LLM) 기반의 다중 에이전트 프레임워크가 빠르게 발전해 왔습니다. 이러한 진전에도 불구하고, 이들의 성능을 평가하기 위해 특별히 설계된 벤치마크 데이터셋은 여전히 부족한 상황입니다. 이러한 격차를 해소하기 위해, 우리는 지능형 개인 비서 컨텍스트에서 LLM 기반 다중 에이전트 프레임워크를 평가하기 위한 벤치마크 데이터셋인 Auto-SLURP를 소개합니다. Auto-SLURP는 원래 자연어 이해 작업을 위해 개발된 SLURP 데이터셋을 확장하여, 데이터를 재라벨링하고 시뮬레이션된 서버 및 외부 서비스를 통합했습니다. 이러한 개선을 통해 언어 이해, 작업 실행, 응답 생성에 이르는 종단 간 평가 파이프라인을 포괄적으로 제공할 수 있게 되었습니다. 우리의 실험 결과, Auto-SLURP는 현재 최첨단 프레임워크들에게 상당한 도전 과제로 작용하며, 진정으로 신뢰할 수 있고 지능적인 다중 에이전트 개인 비서는 여전히 개발 중임을 보여줍니다. 해당 데이터셋과 관련 코드는 https://github.com/lorashen/Auto-SLURP/에서 확인할 수 있습니다.
English
In recent years, multi-agent frameworks powered by large language models
(LLMs) have advanced rapidly. Despite this progress, there is still a notable
absence of benchmark datasets specifically tailored to evaluate their
performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset
aimed at evaluating LLM-based multi-agent frameworks in the context of
intelligent personal assistants. Auto-SLURP extends the original SLURP dataset
-- initially developed for natural language understanding tasks -- by
relabeling the data and integrating simulated servers and external services.
This enhancement enables a comprehensive end-to-end evaluation pipeline,
covering language understanding, task execution, and response generation. Our
experiments demonstrate that Auto-SLURP presents a significant challenge for
current state-of-the-art frameworks, highlighting that truly reliable and
intelligent multi-agent personal assistants remain a work in progress. The
dataset and related code are available at
https://github.com/lorashen/Auto-SLURP/.Summary
AI-Generated Summary