MMAU : Un benchmark holistique des capacités des agents à travers divers domaines
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
July 18, 2024
Auteurs: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
cs.AI
Résumé
Les récents progrès des grands modèles de langage (LLMs) ont accru la demande pour des benchmarks complets afin d'évaluer leurs capacités en tant qu'agents humanoïdes. Les benchmarks existants, bien qu'utiles, se concentrent souvent sur des scénarios d'application spécifiques, mettant l'accent sur l'accomplissement de tâches mais échouant à disséquer les compétences sous-jacentes qui conduisent à ces résultats. Ce manque de granularité rend difficile l'identification précise des sources d'échecs. De plus, la mise en place de ces environnements nécessite un effort considérable, et des problèmes de fiabilité et de reproductibilité surviennent parfois, en particulier dans les tâches interactives. Pour répondre à ces limitations, nous introduisons le benchmark Massive Multitask Agent Understanding (MMAU), qui propose des tâches hors ligne complètes, éliminant ainsi le besoin de configurations d'environnement complexes. Il évalue les modèles à travers cinq domaines, incluant l'utilisation d'outils, les questions-réponses sur graphes acycliques dirigés (DAG), le codage en science des données et apprentissage automatique, la programmation de niveau concours et les mathématiques, et couvre cinq capacités essentielles : la compréhension, le raisonnement, la planification, la résolution de problèmes et l'auto-correction. Avec un total de 20 tâches méticuleusement conçues englobant plus de 3 000 prompts distincts, MMAU offre un cadre complet pour évaluer les forces et les limites des agents LLM. En testant 18 modèles représentatifs sur MMAU, nous fournissons des analyses approfondies et perspicaces. En fin de compte, MMAU non seulement éclaire les capacités et les limites des agents LLM, mais améliore également l'interprétabilité de leurs performances. Les jeux de données et les scripts d'évaluation de MMAU sont disponibles à l'adresse https://github.com/apple/axlearn/docs/research/mmau.
English
Recent advances in large language models (LLMs) have increased the demand for
comprehensive benchmarks to evaluate their capabilities as human-like agents.
Existing benchmarks, while useful, often focus on specific application
scenarios, emphasizing task completion but failing to dissect the underlying
skills that drive these outcomes. This lack of granularity makes it difficult
to deeply discern where failures stem from. Additionally, setting up these
environments requires considerable effort, and issues of unreliability and
reproducibility sometimes arise, especially in interactive tasks. To address
these limitations, we introduce the Massive Multitask Agent Understanding
(MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need
for complex environment setups. It evaluates models across five domains,
including teal{Tool-use}, teal{Directed Acyclic Graph
(DAG) QA}, teal{Data Science and Machine Learning coding},
teal{Contest-level programming} and teal{Mathematics},
and covers five essential capabilities: orange{Understanding},
orange{Reasoning}, orange{Planning},
orange{Problem-solving}, and orange{Self-correction}.
With a total of 20 meticulously designed tasks encompassing over 3K distinct
prompts, MMAU provides a comprehensive framework for evaluating the strengths
and limitations of LLM agents. By testing 18 representative models on MMAU, we
provide deep and insightful analyses. Ultimately, MMAU not only sheds light on
the capabilities and limitations of LLM agents but also enhances the
interpretability of their performance. Datasets and evaluation scripts of MMAU
are released at https://github.com/apple/axlearn/docs/research/mmau.Summary
AI-Generated Summary