알파 엑셀 벤치마크
Alpha Excel Benchmark
May 7, 2025
저자: David Noever, Forrest McKee
cs.AI
초록
본 연구는 Financial Modeling World Cup(FMWC) 엑셀 대회에서 도출된 과제들을 활용하여 대규모 언어 모델(LLMs)을 평가하기 위한 새로운 벤치마크를 제시한다. 우리는 기존의 113개 FMWC 과제를 프로그램적으로 평가 가능한 JSON 형식으로 변환하는 방법론을 소개하고, 이를 통해 여러 주요 LLMs의 성능을 비교하였다. 연구 결과는 다양한 과제 범주에서 성능의 상당한 차이를 보여주며, 모델들이 패턴 인식 과제에서는 특정 강점을 보이지만 복잡한 수치 추론에서는 어려움을 겪는 것으로 나타났다. 이 벤치마크는 추상적인 학문적 문제가 아닌 현실적인 비즈니스 지향적 과제에서 LLMs의 역량을 평가하기 위한 표준화된 프레임워크를 제공한다. 본 연구는 마이크로소프트 엑셀을 매일 사용하는 15억 명의 숙련도를 의미 있는 평가 지표로 설정함으로써 학문적 AI 벤치마크와 실용적인 비즈니스 응용 간의 간극을 메우는 데 기여하며, AI 벤치마킹 분야의 성장에 기여한다.
English
This study presents a novel benchmark for evaluating Large Language Models
(LLMs) using challenges derived from the Financial Modeling World Cup (FMWC)
Excel competitions. We introduce a methodology for converting 113 existing FMWC
challenges into programmatically evaluable JSON formats and use this dataset to
compare the performance of several leading LLMs. Our findings demonstrate
significant variations in performance across different challenge categories,
with models showing specific strengths in pattern recognition tasks but
struggling with complex numerical reasoning. The benchmark provides a
standardized framework for assessing LLM capabilities in realistic
business-oriented tasks rather than abstract academic problems. This research
contributes to the growing field of AI benchmarking by establishing proficiency
among the 1.5 billion people who daily use Microsoft Excel as a meaningful
evaluation metric that bridges the gap between academic AI benchmarks and
practical business applications.Summary
AI-Generated Summary