MMAU: Una Evaluación Integral de las Capacidades de Agentes en Diversos Dominios
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
July 18, 2024
Autores: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang
cs.AI
Resumen
Los avances recientes en los modelos de lenguaje grandes (LLMs) han aumentado la demanda de benchmarks exhaustivos para evaluar sus capacidades como agentes con características humanas. Los benchmarks existentes, aunque útiles, a menudo se centran en escenarios de aplicación específicos, enfatizando la finalización de tareas pero sin desglosar las habilidades subyacentes que impulsan estos resultados. Esta falta de granularidad dificulta discernir profundamente de dónde provienen las fallas. Además, la configuración de estos entornos requiere un esfuerzo considerable, y a veces surgen problemas de falta de fiabilidad y reproducibilidad, especialmente en tareas interactivas. Para abordar estas limitaciones, presentamos el benchmark de Comprensión de Agentes de Multitarea Masiva (MMAU), que incluye tareas exhaustivas sin necesidad de configuraciones de entorno complejas. Evalúa modelos en cinco dominios, incluyendo el Uso de Herramientas, Preguntas y Respuestas de Grafos Acíclicos Dirigidos (DAG), codificación de Ciencia de Datos y Aprendizaje Automático, programación a nivel de competición y Matemáticas, y abarca cinco capacidades esenciales: Comprensión, Razonamiento, Planificación, Resolución de Problemas y Autocorrección. Con un total de 20 tareas meticulosamente diseñadas que abarcan más de 3K indicaciones distintas, MMAU proporciona un marco integral para evaluar las fortalezas y limitaciones de los agentes LLM. Al probar 18 modelos representativos en MMAU, ofrecemos análisis profundos e informativos. En última instancia, MMAU no solo arroja luz sobre las capacidades y limitaciones de los agentes LLM, sino que también mejora la interpretabilidad de su rendimiento. Los conjuntos de datos y scripts de evaluación de MMAU se publican en https://github.com/apple/axlearn/docs/research/mmau.
English
Recent advances in large language models (LLMs) have increased the demand for
comprehensive benchmarks to evaluate their capabilities as human-like agents.
Existing benchmarks, while useful, often focus on specific application
scenarios, emphasizing task completion but failing to dissect the underlying
skills that drive these outcomes. This lack of granularity makes it difficult
to deeply discern where failures stem from. Additionally, setting up these
environments requires considerable effort, and issues of unreliability and
reproducibility sometimes arise, especially in interactive tasks. To address
these limitations, we introduce the Massive Multitask Agent Understanding
(MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need
for complex environment setups. It evaluates models across five domains,
including teal{Tool-use}, teal{Directed Acyclic Graph
(DAG) QA}, teal{Data Science and Machine Learning coding},
teal{Contest-level programming} and teal{Mathematics},
and covers five essential capabilities: orange{Understanding},
orange{Reasoning}, orange{Planning},
orange{Problem-solving}, and orange{Self-correction}.
With a total of 20 meticulously designed tasks encompassing over 3K distinct
prompts, MMAU provides a comprehensive framework for evaluating the strengths
and limitations of LLM agents. By testing 18 representative models on MMAU, we
provide deep and insightful analyses. Ultimately, MMAU not only sheds light on
the capabilities and limitations of LLM agents but also enhances the
interpretability of their performance. Datasets and evaluation scripts of MMAU
are released at https://github.com/apple/axlearn/docs/research/mmau.Summary
AI-Generated Summary