Putnam-AXIOM: Un Benchmark Funzionale e Statico
Putnam-AXIOM: A Functional and Static Benchmark
August 5, 2025
Autori: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI
Abstract
Gli attuali benchmark di ragionamento matematico per i grandi modelli linguistici (LLM) stanno raggiungendo un livello di saturazione, con alcuni che ottengono un'accuratezza superiore al 90%, e sono sempre più compromessi dalla contaminazione del set di addestramento. Introduciamo Putnam-AXIOM, un benchmark composto da 522 problemi di livello universitario tratti dal prestigioso William Lowell Putnam Mathematical Competition, e Putnam-AXIOM Variation, un set complementare non visto di 100 varianti funzionali generate perturbando programmaticamente variabili e costanti. Il protocollo di variazione produce un flusso illimitato di istanze altrettanto difficili e non viste, fornendo un banco di prova resistente alla contaminazione. Sul set Originale, o1-preview di OpenAI — il modello più potente valutato — ottiene un punteggio del 41,9%, ma la sua accuratezza scende del 19,6% (una diminuzione relativa del 46,8%) sulle Variation accoppiate. I restanti diciotto modelli mostrano la stessa tendenza al ribasso, con dieci di essi che presentano intervalli di confidenza al 95% non sovrapposti. Queste lacune suggeriscono memorizzazione e sottolineano la necessità di benchmark dinamici. Integriamo l'accuratezza "in scatola" con l'accuratezza Teacher-Forced (TFA), una metrica leggera che valuta direttamente le tracce di ragionamento e automatizza le valutazioni delle dimostrazioni in linguaggio naturale. Putnam-AXIOM fornisce quindi un framework di valutazione rigoroso e resistente alla contaminazione per valutare il ragionamento matematico avanzato dei LLM. I dati e il codice di valutazione sono disponibili pubblicamente all'indirizzo https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs)
are approaching saturation, with some achieving > 90% accuracy, and are
increasingly compromised by training-set contamination. We introduce
Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn
from the prestigious William Lowell Putnam Mathematical Competition, and
Putnam-AXIOM Variation, an unseen companion set of 100 functional variants
generated by programmatically perturbing variables and constants. The variation
protocol produces an unlimited stream of equally difficult, unseen instances --
yielding a contamination-resilient test bed. On the Original set, OpenAI's
o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy
drops by 19.6% (46.8% relative decrease) on the paired Variations. The
remaining eighteen models show the same downward trend, ten of them with
non-overlapping 95% confidence intervals. These gaps suggest memorization and
highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy
with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores
reasoning traces and automates natural language proof evaluations. Putnam-AXIOM
therefore provides a rigorous, contamination-resilient evaluation framework for
assessing advanced mathematical reasoning of LLMs. Data and evaluation code are
publicly available at https://github.com/brando90/putnam-axiom.