Putnam-AXIOM: Функциональный и статический бенчмарк
Putnam-AXIOM: A Functional and Static Benchmark
August 5, 2025
Авторы: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI
Аннотация
Современные тестовые наборы для оценки математических рассуждений крупных языковых моделей (LLM) приближаются к насыщению, при этом некоторые из них достигают точности > 90%, но всё чаще страдают от загрязнения обучающих данных. Мы представляем Putnam-AXIOM — тестовый набор из 522 задач университетского уровня, взятых из престижного математического соревнования William Lowell Putnam, а также Putnam-AXIOM Variation — дополнительный набор из 100 функциональных вариаций, созданных путём программного изменения переменных и констант. Протокол вариаций генерирует неограниченный поток задач равной сложности, которые не встречались в обучающих данных, что делает тестовую среду устойчивой к загрязнению. На исходном наборе OpenAI o1-preview — самая сильная из оценённых моделей — показывает точность 41,9%, но её точность падает на 19,6% (относительное снижение на 46,8%) на парных вариациях. Остальные восемнадцать моделей демонстрируют аналогичную тенденцию к снижению, причём у десяти из них 95% доверительные интервалы не перекрываются. Эти разрывы указывают на запоминание и подчеркивают необходимость динамических тестовых наборов. Мы дополняем "коробочную" точность метрикой Teacher-Forced Accuracy (TFA) — лёгким методом, который напрямую оценивает траектории рассуждений и автоматизирует оценку доказательств на естественном языке. Таким образом, Putnam-AXIOM предоставляет строгую и устойчивую к загрязнению систему оценки для проверки продвинутых математических рассуждений LLM. Данные и код для оценки доступны по адресу https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs)
are approaching saturation, with some achieving > 90% accuracy, and are
increasingly compromised by training-set contamination. We introduce
Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn
from the prestigious William Lowell Putnam Mathematical Competition, and
Putnam-AXIOM Variation, an unseen companion set of 100 functional variants
generated by programmatically perturbing variables and constants. The variation
protocol produces an unlimited stream of equally difficult, unseen instances --
yielding a contamination-resilient test bed. On the Original set, OpenAI's
o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy
drops by 19.6% (46.8% relative decrease) on the paired Variations. The
remaining eighteen models show the same downward trend, ten of them with
non-overlapping 95% confidence intervals. These gaps suggest memorization and
highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy
with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores
reasoning traces and automates natural language proof evaluations. Putnam-AXIOM
therefore provides a rigorous, contamination-resilient evaluation framework for
assessing advanced mathematical reasoning of LLMs. Data and evaluation code are
publicly available at https://github.com/brando90/putnam-axiom.