MMAU: Een Holistische Benchmark van Agentcapaciteiten over Diverse Domeinen
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
July 18, 2024
Auteurs: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de vraag naar uitgebreide benchmarks vergroot om hun capaciteiten als mensachtige agents te evalueren. Bestaande benchmarks, hoewel nuttig, richten zich vaak op specifieke toepassingsscenario's, waarbij de nadruk ligt op taakvoltooiing maar de onderliggende vaardigheden die deze resultaten sturen niet worden ontleed. Dit gebrek aan granulariteit maakt het moeilijk om diepgaand te begrijpen waar fouten vandaan komen. Bovendien vereist het opzetten van deze omgevingen aanzienlijke inspanning, en soms doen zich problemen voor met betrekking tot onbetrouwbaarheid en reproduceerbaarheid, vooral bij interactieve taken. Om deze beperkingen aan te pakken, introduceren we de Massive Multitask Agent Understanding (MMAU) benchmark, die uitgebreide offline taken omvat die de noodzaak voor complexe omgevingsopstellingen elimineren. Het evalueert modellen over vijf domeinen, waaronder teal{Gebruik van gereedschappen}, teal{Gerichte Acyclische Grafiek (DAG) QA}, teal{Data Science en Machine Learning codering}, teal{Wedstrijdniveau programmeren} en teal{Wiskunde}, en bestrijkt vijf essentiële vaardigheden: orange{Begrip}, orange{Redeneren}, orange{Plannen}, orange{Probleemoplossen} en orange{Zelfcorrectie}. Met in totaal 20 zorgvuldig ontworpen taken die meer dan 3K verschillende prompts omvatten, biedt MMAU een uitgebreid kader voor het evalueren van de sterke en zwakke punten van LLM-agents. Door 18 representatieve modellen op MMAU te testen, bieden we diepgaande en inzichtelijke analyses. Uiteindelijk werpt MMAU niet alleen licht op de capaciteiten en beperkingen van LLM-agents, maar verbetert het ook de interpreteerbaarheid van hun prestaties. De datasets en evaluatiescripts van MMAU zijn vrijgegeven op https://github.com/apple/axlearn/docs/research/mmau.
English
Recent advances in large language models (LLMs) have increased the demand for
comprehensive benchmarks to evaluate their capabilities as human-like agents.
Existing benchmarks, while useful, often focus on specific application
scenarios, emphasizing task completion but failing to dissect the underlying
skills that drive these outcomes. This lack of granularity makes it difficult
to deeply discern where failures stem from. Additionally, setting up these
environments requires considerable effort, and issues of unreliability and
reproducibility sometimes arise, especially in interactive tasks. To address
these limitations, we introduce the Massive Multitask Agent Understanding
(MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need
for complex environment setups. It evaluates models across five domains,
including teal{Tool-use}, teal{Directed Acyclic Graph
(DAG) QA}, teal{Data Science and Machine Learning coding},
teal{Contest-level programming} and teal{Mathematics},
and covers five essential capabilities: orange{Understanding},
orange{Reasoning}, orange{Planning},
orange{Problem-solving}, and orange{Self-correction}.
With a total of 20 meticulously designed tasks encompassing over 3K distinct
prompts, MMAU provides a comprehensive framework for evaluating the strengths
and limitations of LLM agents. By testing 18 representative models on MMAU, we
provide deep and insightful analyses. Ultimately, MMAU not only sheds light on
the capabilities and limitations of LLM agents but also enhances the
interpretability of their performance. Datasets and evaluation scripts of MMAU
are released at https://github.com/apple/axlearn/docs/research/mmau.