ChatPaper.aiChatPaper

알파 엑셀 벤치마크

Alpha Excel Benchmark

May 7, 2025
저자: David Noever, Forrest McKee
cs.AI

초록

본 연구는 Financial Modeling World Cup(FMWC) 엑셀 대회에서 도출된 과제들을 활용하여 대규모 언어 모델(LLMs)을 평가하기 위한 새로운 벤치마크를 제시한다. 우리는 기존의 113개 FMWC 과제를 프로그램적으로 평가 가능한 JSON 형식으로 변환하는 방법론을 소개하고, 이를 통해 여러 주요 LLMs의 성능을 비교하였다. 연구 결과는 다양한 과제 범주에서 성능의 상당한 차이를 보여주며, 모델들이 패턴 인식 과제에서는 특정 강점을 보이지만 복잡한 수치 추론에서는 어려움을 겪는 것으로 나타났다. 이 벤치마크는 추상적인 학문적 문제가 아닌 현실적인 비즈니스 지향적 과제에서 LLMs의 역량을 평가하기 위한 표준화된 프레임워크를 제공한다. 본 연구는 마이크로소프트 엑셀을 매일 사용하는 15억 명의 숙련도를 의미 있는 평가 지표로 설정함으로써 학문적 AI 벤치마크와 실용적인 비즈니스 응용 간의 간극을 메우는 데 기여하며, AI 벤치마킹 분야의 성장에 기여한다.
English
This study presents a novel benchmark for evaluating Large Language Models (LLMs) using challenges derived from the Financial Modeling World Cup (FMWC) Excel competitions. We introduce a methodology for converting 113 existing FMWC challenges into programmatically evaluable JSON formats and use this dataset to compare the performance of several leading LLMs. Our findings demonstrate significant variations in performance across different challenge categories, with models showing specific strengths in pattern recognition tasks but struggling with complex numerical reasoning. The benchmark provides a standardized framework for assessing LLM capabilities in realistic business-oriented tasks rather than abstract academic problems. This research contributes to the growing field of AI benchmarking by establishing proficiency among the 1.5 billion people who daily use Microsoft Excel as a meaningful evaluation metric that bridges the gap between academic AI benchmarks and practical business applications.

Summary

AI-Generated Summary

PDF01May 8, 2025