Benchmark Alpha Excel
Alpha Excel Benchmark
May 7, 2025
Autores: David Noever, Forrest McKee
cs.AI
Resumen
Este estudio presenta un nuevo punto de referencia para evaluar Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilizando desafíos derivados de las competencias de Excel del Financial Modeling World Cup (FMWC). Introducimos una metodología para convertir 113 desafíos existentes del FMWC en formatos JSON evaluables programáticamente y utilizamos este conjunto de datos para comparar el rendimiento de varios LLMs líderes. Nuestros hallazgos demuestran variaciones significativas en el rendimiento entre diferentes categorías de desafíos, con modelos que muestran fortalezas específicas en tareas de reconocimiento de patrones pero que luchan con el razonamiento numérico complejo. El punto de referencia proporciona un marco estandarizado para evaluar las capacidades de los LLMs en tareas empresariales realistas en lugar de problemas académicos abstractos. Esta investigación contribuye al creciente campo de la evaluación comparativa de IA al establecer la competencia entre los 1.500 millones de personas que utilizan diariamente Microsoft Excel como una métrica de evaluación significativa que cierra la brecha entre los puntos de referencia académicos de IA y las aplicaciones empresariales prácticas.
English
This study presents a novel benchmark for evaluating Large Language Models
(LLMs) using challenges derived from the Financial Modeling World Cup (FMWC)
Excel competitions. We introduce a methodology for converting 113 existing FMWC
challenges into programmatically evaluable JSON formats and use this dataset to
compare the performance of several leading LLMs. Our findings demonstrate
significant variations in performance across different challenge categories,
with models showing specific strengths in pattern recognition tasks but
struggling with complex numerical reasoning. The benchmark provides a
standardized framework for assessing LLM capabilities in realistic
business-oriented tasks rather than abstract academic problems. This research
contributes to the growing field of AI benchmarking by establishing proficiency
among the 1.5 billion people who daily use Microsoft Excel as a meaningful
evaluation metric that bridges the gap between academic AI benchmarks and
practical business applications.Summary
AI-Generated Summary