ChatPaper.aiChatPaper

MMAU: Ein ganzheitlicher Leistungsbenchmark von Agentenfähigkeiten in verschiedenen Bereichen

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

July 18, 2024
Autoren: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
cs.AI

Zusammenfassung

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben die Nachfrage nach umfassenden Benchmarks erhöht, um ihre Fähigkeiten als menschenähnliche Agenten zu bewerten. Bestehende Benchmarks konzentrieren sich oft auf spezifische Anwendungsszenarien, betonen die Aufgabenerfüllung, analysieren jedoch nicht die zugrunde liegenden Fähigkeiten, die diese Ergebnisse antreiben. Dieser Mangel an Granularität erschwert es, genau zu erkennen, wo Fehler herrühren. Darüber hinaus erfordert die Einrichtung dieser Umgebungen erheblichen Aufwand, und Probleme mit Unzuverlässigkeit und Reproduzierbarkeit treten manchmal auf, insbesondere bei interaktiven Aufgaben. Um diese Einschränkungen zu adressieren, führen wir den Massive Multitask Agent Understanding (MMAU) Benchmark ein, der umfassende Offline-Aufgaben bietet, die komplexe Umgebungssetups überflüssig machen. Er bewertet Modelle in fünf Bereichen, darunter Werkzeugverwendung, Directed Acyclic Graph (DAG) QA, Data Science und Machine Learning-Codierung, Programmierung auf Wettbewerbsniveau und Mathematik, und umfasst fünf wesentliche Fähigkeiten: Verständnis, Schlussfolgerung, Planung, Problemlösung und Selbstkorrektur. Mit insgesamt 20 sorgfältig gestalteten Aufgaben, die über 3.000 verschiedene Aufforderungen umfassen, bietet MMAU einen umfassenden Rahmen zur Bewertung der Stärken und Schwächen von LLM-Agenten. Durch den Test von 18 repräsentativen Modellen auf MMAU liefern wir tiefe und aufschlussreiche Analysen. Letztendlich beleuchtet MMAU nicht nur die Fähigkeiten und Grenzen von LLM-Agenten, sondern verbessert auch die Interpretierbarkeit ihrer Leistung. Die Datensätze und Auswertungsskripte von MMAU sind unter https://github.com/apple/axlearn/docs/research/mmau verfügbar.
English
Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including teal{Tool-use}, teal{Directed Acyclic Graph (DAG) QA}, teal{Data Science and Machine Learning coding}, teal{Contest-level programming} and teal{Mathematics}, and covers five essential capabilities: orange{Understanding}, orange{Reasoning}, orange{Planning}, orange{Problem-solving}, and orange{Self-correction}. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/docs/research/mmau.

Summary

AI-Generated Summary

PDF414November 28, 2024