ChatPaper.aiChatPaper

Putnam-AXIOM: 기능적 및 정적 벤치마크

Putnam-AXIOM: A Functional and Static Benchmark

August 5, 2025
저자: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI

초록

현재 대형 언어 모델(LLMs)을 위한 수학적 추론 벤치마크는 > 90%의 정확도를 달성하며 포화 상태에 접어들고 있으며, 훈련 데이터셋 오염으로 인해 점점 더 신뢰성이 떨어지고 있습니다. 우리는 권위 있는 윌리엄 로웰 퍼트남 수학 경시대회(William Lowell Putnam Mathematical Competition)에서 추출한 522개의 대학 수준 경쟁 문제로 구성된 Putnam-AXIOM 벤치마크와, 변수와 상수를 프로그래밍적으로 변형하여 생성한 100개의 기능적 변형 문제로 구성된 Putnam-AXIOM Variation을 소개합니다. 이 변형 프로토콜은 동일한 난이도의 무한한 스트림의 새로운 문제를 생성하여 오염에 강한 테스트 환경을 제공합니다. 원본 문제셋에서 OpenAI의 o1-preview(평가된 모델 중 가장 강력한 모델)는 41.9%의 정확도를 보였으나, 짝을 이루는 변형 문제셋에서는 정확도가 19.6%(상대적 감소율 46.8%) 하락했습니다. 나머지 18개 모델도 동일한 하락 추세를 보였으며, 그 중 10개 모델은 95% 신뢰 구간이 겹치지 않았습니다. 이러한 격차는 암기 현상을 시사하며 동적 벤치마크의 필요성을 강조합니다. 우리는 "박스형" 정확도 외에도 Teacher-Forced Accuracy(TFA)라는 경량 메트릭을 도입하여 추론 과정을 직접 평가하고 자연어 증명 평가를 자동화합니다. 따라서 Putnam-AXIOM은 LLMs의 고급 수학적 추론 능력을 평가하기 위한 엄격하고 오염에 강한 평가 프레임워크를 제공합니다. 데이터와 평가 코드는 https://github.com/brando90/putnam-axiom에서 공개적으로 이용 가능합니다.
English
Current mathematical reasoning benchmarks for large language models (LLMs) are approaching saturation, with some achieving > 90% accuracy, and are increasingly compromised by training-set contamination. We introduce Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn from the prestigious William Lowell Putnam Mathematical Competition, and Putnam-AXIOM Variation, an unseen companion set of 100 functional variants generated by programmatically perturbing variables and constants. The variation protocol produces an unlimited stream of equally difficult, unseen instances -- yielding a contamination-resilient test bed. On the Original set, OpenAI's o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy drops by 19.6% (46.8% relative decrease) on the paired Variations. The remaining eighteen models show the same downward trend, ten of them with non-overlapping 95% confidence intervals. These gaps suggest memorization and highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores reasoning traces and automates natural language proof evaluations. Putnam-AXIOM therefore provides a rigorous, contamination-resilient evaluation framework for assessing advanced mathematical reasoning of LLMs. Data and evaluation code are publicly available at https://github.com/brando90/putnam-axiom.
PDF12August 13, 2025