MMAU: Комплексная оценка возможностей агентов в различных областях

Аннотация

Недавние достижения в области крупных языковых моделей (LLM) увеличили спрос на комплексные бенчмарки для оценки их способностей как агентов, приближенных к человеку. Существующие бенчмарки, хотя и полезны, часто сосредотачиваются на конкретных сценариях применения, акцентируя внимание на завершении задач, но не анализируя базовые навыки, которые определяют эти результаты. Этот недостаток детализации затрудняет глубокое понимание причин сбоев. Кроме того, создание таких сред обитания требует значительных усилий, и иногда возникают проблемы ненадежности и воспроизводимости, особенно в интерактивных задачах. Для преодоления этих ограничений мы представляем бенчмарк Massive Multitask Agent Understanding (MMAU), включающий в себя обширные офлайн-задачи, исключающие необходимость в сложной настройке среды. Он оценивает модели в пяти областях, включая teal{Использование инструментов}, teal{Направленный ациклический граф (DAG) QA}, teal{Кодирование в области науки о данных и машинного обучения}, teal{Программирование на уровне соревнования} и teal{Математика}, и охватывает пять основных способностей: orange{Понимание}, orange{Мышление}, orange{Планирование}, orange{Решение проблем} и orange{Самокоррекция}. С общим числом 20 тщательно разработанных задач, включающих более 3 тыс. различных подсказок, MMAU предоставляет обширную рамку для оценки сильных и слабых сторон агентов LLM. Проведя тестирование 18 представительных моделей на MMAU, мы предоставляем глубокий и содержательный анализ. В конечном итоге, MMAU не только проливает свет на способности и ограничения агентов LLM, но и повышает интерпретируемость их производительности. Наборы данных и скрипты оценки MMAU доступны по ссылке https://github.com/apple/axlearn/docs/research/mmau.

English

Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including teal{Tool-use}, teal{Directed Acyclic Graph (DAG) QA}, teal{Data Science and Machine Learning coding}, teal{Contest-level programming} and teal{Mathematics}, and covers five essential capabilities: orange{Understanding}, orange{Reasoning}, orange{Planning}, orange{Problem-solving}, and orange{Self-correction}. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/docs/research/mmau.

MMAU: Комплексная оценка возможностей агентов в различных областях

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

Аннотация

Support