Putnam-AXIOM: 機能性と静的ベンチマーク
Putnam-AXIOM: A Functional and Static Benchmark
August 5, 2025
著者: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI
要旨
現在の大規模言語モデル(LLM)向けの数学的推論ベンチマークは飽和状態に近づいており、一部では90%以上の精度を達成しているが、トレーニングデータセットの汚染によってますます影響を受けている。本論文では、著名なウィリアム・ローウェル・プットナム数学競技会から抽出された522問の大学レベルの競技問題からなるベンチマーク「Putnam-AXIOM」と、変数や定数をプログラム的に変更して生成された100問の未見の機能バリエーションセット「Putnam-AXIOM Variation」を紹介する。このバリエーションプロトコルは、同等の難易度を持つ未見のインスタンスを無制限に生成し、汚染に強いテストベッドを提供する。オリジナルセットでは、OpenAIのo1-preview(評価された中で最強のモデル)が41.9%のスコアを達成したが、対応するバリエーションセットでは精度が19.6%(相対的に46.8%の減少)低下した。残りの18モデルも同様の低下傾向を示し、そのうち10モデルでは95%信頼区間が重ならない。これらのギャップは記憶化を示唆しており、動的なベンチマークの必要性を強調している。我々は「ボックス化」された精度に加えて、推論トレースを直接評価し、自然言語による証明評価を自動化する軽量な指標「Teacher-Forced Accuracy(TFA)」を補完する。したがって、Putnam-AXIOMは、LLMの高度な数学的推論能力を評価するための厳密で汚染に強い評価フレームワークを提供する。データと評価コードはhttps://github.com/brando90/putnam-axiomで公開されている。
English
Current mathematical reasoning benchmarks for large language models (LLMs)
are approaching saturation, with some achieving > 90% accuracy, and are
increasingly compromised by training-set contamination. We introduce
Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn
from the prestigious William Lowell Putnam Mathematical Competition, and
Putnam-AXIOM Variation, an unseen companion set of 100 functional variants
generated by programmatically perturbing variables and constants. The variation
protocol produces an unlimited stream of equally difficult, unseen instances --
yielding a contamination-resilient test bed. On the Original set, OpenAI's
o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy
drops by 19.6% (46.8% relative decrease) on the paired Variations. The
remaining eighteen models show the same downward trend, ten of them with
non-overlapping 95% confidence intervals. These gaps suggest memorization and
highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy
with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores
reasoning traces and automates natural language proof evaluations. Putnam-AXIOM
therefore provides a rigorous, contamination-resilient evaluation framework for
assessing advanced mathematical reasoning of LLMs. Data and evaluation code are
publicly available at https://github.com/brando90/putnam-axiom.