ChatPaper.aiChatPaper

MMAU:多様な領域にわたるエージェント能力の包括的ベンチマーク

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

July 18, 2024
著者: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
cs.AI

要旨

大規模言語モデル(LLM)の最近の進歩により、人間のようなエージェントとしての能力を評価するための包括的なベンチマークの需要が高まっています。既存のベンチマークは有用ではあるものの、特定のアプリケーションシナリオに焦点を当てることが多く、タスクの完了を重視する一方で、これらの結果を支える基盤となるスキルを詳細に分析することには失敗しています。この粒度の欠如は、失敗の原因を深く理解することを困難にしています。さらに、これらの環境を設定するには多大な労力が必要であり、特にインタラクティブなタスクでは、信頼性や再現性の問題が生じることがあります。これらの制限に対処するため、我々はMassive Multitask Agent Understanding(MMAU)ベンチマークを導入します。これは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としており、モデルを5つのドメイン(\teal{ツール使用}、\teal{有向非巡回グラフ(DAG)QA}、\teal{データサイエンスと機械学習コーディング}、\teal{コンテストレベルのプログラミング}、\teal{数学})で評価し、5つの重要な能力(\orange{理解}、\orange{推論}、\orange{計画}、\orange{問題解決}、\orange{自己修正})をカバーします。合計20の綿密に設計されたタスクと3,000以上の異なるプロンプトを含むMMAUは、LLMエージェントの強みと限界を評価するための包括的なフレームワークを提供します。18の代表的なモデルをMMAUでテストすることで、深く洞察に満ちた分析を提供します。最終的に、MMAUはLLMエージェントの能力と限界を明らかにするだけでなく、そのパフォーマンスの解釈可能性を高めます。MMAUのデータセットと評価スクリプトはhttps://github.com/apple/axlearn/docs/research/mmauで公開されています。
English
Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including teal{Tool-use}, teal{Directed Acyclic Graph (DAG) QA}, teal{Data Science and Machine Learning coding}, teal{Contest-level programming} and teal{Mathematics}, and covers five essential capabilities: orange{Understanding}, orange{Reasoning}, orange{Planning}, orange{Problem-solving}, and orange{Self-correction}. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/docs/research/mmau.

Summary

AI-Generated Summary

PDF414November 28, 2024