ChatPaper.aiChatPaper

MMAU: Um Benchmark Holístico das Capacidades de Agentes em Diversos Domínios

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

July 18, 2024
Autores: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
cs.AI

Resumo

Os avanços recentes em grandes modelos de linguagem (LLMs) aumentaram a demanda por benchmarks abrangentes para avaliar suas capacidades como agentes semelhantes a humanos. Os benchmarks existentes, embora úteis, frequentemente se concentram em cenários de aplicação específicos, enfatizando a conclusão de tarefas, mas falhando em dissecar as habilidades subjacentes que impulsionam esses resultados. Essa falta de granularidade torna difícil discernir profundamente de onde vêm as falhas. Além disso, a configuração desses ambientes requer um esforço considerável, e questões de confiabilidade e reprodutibilidade às vezes surgem, especialmente em tarefas interativas. Para lidar com essas limitações, apresentamos o benchmark Massive Multitask Agent Understanding (MMAU), apresentando tarefas offline abrangentes que eliminam a necessidade de configurações de ambiente complexas. Ele avalia modelos em cinco domínios, incluindo Uso de Ferramentas, Perguntas e Respostas em Grafo Acíclico Direcionado (DAG), codificação em Ciência de Dados e Aprendizado de Máquina, programação de nível de competição e Matemática, e abrange cinco capacidades essenciais: Compreensão, Raciocínio, Planejamento, Resolução de Problemas e Autocorreção. Com um total de 20 tarefas meticulosamente projetadas abrangendo mais de 3 mil prompts distintos, o MMAU fornece um framework abrangente para avaliar os pontos fortes e limitações dos agentes LLM. Testando 18 modelos representativos no MMAU, fornecemos análises profundas e esclarecedoras. Em última análise, o MMAU não apenas lança luz sobre as capacidades e limitações dos agentes LLM, mas também aprimora a interpretabilidade de seu desempenho. Os conjuntos de dados e scripts de avaliação do MMAU estão disponíveis em https://github.com/apple/axlearn/docs/research/mmau.
English
Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including teal{Tool-use}, teal{Directed Acyclic Graph (DAG) QA}, teal{Data Science and Machine Learning coding}, teal{Contest-level programming} and teal{Mathematics}, and covers five essential capabilities: orange{Understanding}, orange{Reasoning}, orange{Planning}, orange{Problem-solving}, and orange{Self-correction}. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/docs/research/mmau.

Summary

AI-Generated Summary

PDF414November 28, 2024