MMAU: Un Benchmark Olistico delle Capacità degli Agenti in Diversi Domini
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
July 18, 2024
Autori: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno aumentato la domanda di benchmark completi per valutare le loro capacità come agenti simili agli esseri umani. I benchmark esistenti, sebbene utili, si concentrano spesso su scenari applicativi specifici, enfatizzando il completamento dei compiti ma non riuscendo a scomporre le abilità sottostanti che guidano questi risultati. Questa mancanza di granularità rende difficile discernere profondamente da dove derivino i fallimenti. Inoltre, la configurazione di questi ambienti richiede uno sforzo considerevole, e talvolta sorgono problemi di affidabilità e riproducibilità, specialmente nei compiti interattivi. Per affrontare queste limitazioni, introduciamo il benchmark Massive Multitask Agent Understanding (MMAU), che presenta compiti offline completi che eliminano la necessità di configurazioni ambientali complesse. Valuta i modelli in cinque domini, tra cui teal{Utilizzo di strumenti}, teal{Domande e risposte su grafi aciclici diretti (DAG)}, teal{Codifica in Data Science e Machine Learning}, teal{Programmazione a livello di concorso} e teal{Matematica}, e copre cinque capacità essenziali: orange{Comprensione}, orange{Ragionamento}, orange{Pianificazione}, orange{Risoluzione dei problemi} e orange{Auto-correzione}. Con un totale di 20 compiti meticolosamente progettati che comprendono oltre 3K prompt distinti, MMAU fornisce un quadro completo per valutare i punti di forza e le limitazioni degli agenti LLM. Testando 18 modelli rappresentativi su MMAU, forniamo analisi approfondite e significative. In definitiva, MMAU non solo illumina le capacità e le limitazioni degli agenti LLM, ma migliora anche l'interpretabilità delle loro prestazioni. I dataset e gli script di valutazione di MMAU sono rilasciati su https://github.com/apple/axlearn/docs/research/mmau.
English
Recent advances in large language models (LLMs) have increased the demand for
comprehensive benchmarks to evaluate their capabilities as human-like agents.
Existing benchmarks, while useful, often focus on specific application
scenarios, emphasizing task completion but failing to dissect the underlying
skills that drive these outcomes. This lack of granularity makes it difficult
to deeply discern where failures stem from. Additionally, setting up these
environments requires considerable effort, and issues of unreliability and
reproducibility sometimes arise, especially in interactive tasks. To address
these limitations, we introduce the Massive Multitask Agent Understanding
(MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need
for complex environment setups. It evaluates models across five domains,
including teal{Tool-use}, teal{Directed Acyclic Graph
(DAG) QA}, teal{Data Science and Machine Learning coding},
teal{Contest-level programming} and teal{Mathematics},
and covers five essential capabilities: orange{Understanding},
orange{Reasoning}, orange{Planning},
orange{Problem-solving}, and orange{Self-correction}.
With a total of 20 meticulously designed tasks encompassing over 3K distinct
prompts, MMAU provides a comprehensive framework for evaluating the strengths
and limitations of LLM agents. By testing 18 representative models on MMAU, we
provide deep and insightful analyses. Ultimately, MMAU not only sheds light on
the capabilities and limitations of LLM agents but also enhances the
interpretability of their performance. Datasets and evaluation scripts of MMAU
are released at https://github.com/apple/axlearn/docs/research/mmau.