Alpha-Excel-Benchmark
Alpha Excel Benchmark
May 7, 2025
Autoren: David Noever, Forrest McKee
cs.AI
Zusammenfassung
Diese Studie präsentiert einen neuartigen Benchmark zur Bewertung von Large Language Models (LLMs) anhand von Herausforderungen, die aus den Excel-Wettbewerben der Financial Modeling World Cup (FMWC) abgeleitet wurden. Wir führen eine Methodik ein, um 113 bestehende FMWC-Herausforderungen in programmatisch auswertbare JSON-Formate zu konvertieren, und verwenden diesen Datensatz, um die Leistung mehrerer führender LLMs zu vergleichen. Unsere Ergebnisse zeigen signifikante Leistungsunterschiede in verschiedenen Herausforderungskategorien, wobei Modelle spezifische Stärken bei Mustererkennungsaufgaben aufweisen, jedoch mit komplexem numerischem Denken zu kämpfen haben. Der Benchmark bietet einen standardisierten Rahmen zur Bewertung der Fähigkeiten von LLMs in realistischen, geschäftsorientierten Aufgaben anstelle von abstrakten akademischen Problemen. Diese Forschung trägt zum wachsenden Feld der KI-Benchmarking bei, indem sie die Kompetenz der 1,5 Milliarden Menschen, die täglich Microsoft Excel verwenden, als aussagekräftiges Bewertungskriterium etabliert, das die Lücke zwischen akademischen KI-Benchmarks und praktischen Geschäftsanwendungen schließt.
English
This study presents a novel benchmark for evaluating Large Language Models
(LLMs) using challenges derived from the Financial Modeling World Cup (FMWC)
Excel competitions. We introduce a methodology for converting 113 existing FMWC
challenges into programmatically evaluable JSON formats and use this dataset to
compare the performance of several leading LLMs. Our findings demonstrate
significant variations in performance across different challenge categories,
with models showing specific strengths in pattern recognition tasks but
struggling with complex numerical reasoning. The benchmark provides a
standardized framework for assessing LLM capabilities in realistic
business-oriented tasks rather than abstract academic problems. This research
contributes to the growing field of AI benchmarking by establishing proficiency
among the 1.5 billion people who daily use Microsoft Excel as a meaningful
evaluation metric that bridges the gap between academic AI benchmarks and
practical business applications.Summary
AI-Generated Summary