ChatPaper.aiChatPaper

Benchmark Alpha Excel

Alpha Excel Benchmark

May 7, 2025
Autores: David Noever, Forrest McKee
cs.AI

Resumen

Este estudio presenta un nuevo punto de referencia para evaluar Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilizando desafíos derivados de las competencias de Excel del Financial Modeling World Cup (FMWC). Introducimos una metodología para convertir 113 desafíos existentes del FMWC en formatos JSON evaluables programáticamente y utilizamos este conjunto de datos para comparar el rendimiento de varios LLMs líderes. Nuestros hallazgos demuestran variaciones significativas en el rendimiento entre diferentes categorías de desafíos, con modelos que muestran fortalezas específicas en tareas de reconocimiento de patrones pero que luchan con el razonamiento numérico complejo. El punto de referencia proporciona un marco estandarizado para evaluar las capacidades de los LLMs en tareas empresariales realistas en lugar de problemas académicos abstractos. Esta investigación contribuye al creciente campo de la evaluación comparativa de IA al establecer la competencia entre los 1.500 millones de personas que utilizan diariamente Microsoft Excel como una métrica de evaluación significativa que cierra la brecha entre los puntos de referencia académicos de IA y las aplicaciones empresariales prácticas.
English
This study presents a novel benchmark for evaluating Large Language Models (LLMs) using challenges derived from the Financial Modeling World Cup (FMWC) Excel competitions. We introduce a methodology for converting 113 existing FMWC challenges into programmatically evaluable JSON formats and use this dataset to compare the performance of several leading LLMs. Our findings demonstrate significant variations in performance across different challenge categories, with models showing specific strengths in pattern recognition tasks but struggling with complex numerical reasoning. The benchmark provides a standardized framework for assessing LLM capabilities in realistic business-oriented tasks rather than abstract academic problems. This research contributes to the growing field of AI benchmarking by establishing proficiency among the 1.5 billion people who daily use Microsoft Excel as a meaningful evaluation metric that bridges the gap between academic AI benchmarks and practical business applications.

Summary

AI-Generated Summary

PDF01May 8, 2025