Alpha-Excel-Benchmark

Zusammenfassung

Diese Studie präsentiert einen neuartigen Benchmark zur Bewertung von Large Language Models (LLMs) anhand von Herausforderungen, die aus den Excel-Wettbewerben der Financial Modeling World Cup (FMWC) abgeleitet wurden. Wir führen eine Methodik ein, um 113 bestehende FMWC-Herausforderungen in programmatisch auswertbare JSON-Formate zu konvertieren, und verwenden diesen Datensatz, um die Leistung mehrerer führender LLMs zu vergleichen. Unsere Ergebnisse zeigen signifikante Leistungsunterschiede in verschiedenen Herausforderungskategorien, wobei Modelle spezifische Stärken bei Mustererkennungsaufgaben aufweisen, jedoch mit komplexem numerischem Denken zu kämpfen haben. Der Benchmark bietet einen standardisierten Rahmen zur Bewertung der Fähigkeiten von LLMs in realistischen, geschäftsorientierten Aufgaben anstelle von abstrakten akademischen Problemen. Diese Forschung trägt zum wachsenden Feld der KI-Benchmarking bei, indem sie die Kompetenz der 1,5 Milliarden Menschen, die täglich Microsoft Excel verwenden, als aussagekräftiges Bewertungskriterium etabliert, das die Lücke zwischen akademischen KI-Benchmarks und praktischen Geschäftsanwendungen schließt.

English

This study presents a novel benchmark for evaluating Large Language Models (LLMs) using challenges derived from the Financial Modeling World Cup (FMWC) Excel competitions. We introduce a methodology for converting 113 existing FMWC challenges into programmatically evaluable JSON formats and use this dataset to compare the performance of several leading LLMs. Our findings demonstrate significant variations in performance across different challenge categories, with models showing specific strengths in pattern recognition tasks but struggling with complex numerical reasoning. The benchmark provides a standardized framework for assessing LLM capabilities in realistic business-oriented tasks rather than abstract academic problems. This research contributes to the growing field of AI benchmarking by establishing proficiency among the 1.5 billion people who daily use Microsoft Excel as a meaningful evaluation metric that bridges the gap between academic AI benchmarks and practical business applications.