ChatPaper.aiChatPaper

Putnam-AXIOM : Un benchmark fonctionnel et statique

Putnam-AXIOM: A Functional and Static Benchmark

August 5, 2025
papers.authors: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI

papers.abstract

Les benchmarks actuels de raisonnement mathématique pour les grands modèles de langage (LLM) approchent de la saturation, certains atteignant une précision supérieure à 90 %, et sont de plus en plus compromis par la contamination des ensembles d'entraînement. Nous présentons Putnam-AXIOM, un benchmark de 522 problèmes de compétition universitaire tirés du prestigieux concours William Lowell Putnam de mathématiques, ainsi que Putnam-AXIOM Variation, un ensemble compagnon inédit de 100 variantes fonctionnelles générées en perturbant programmatiquement les variables et les constantes. Le protocole de variation produit un flux illimité d'instances également difficiles et inédites, offrant ainsi un banc d'essai résilient à la contamination. Sur l'ensemble Original, o1-preview d'OpenAI — le modèle le plus performant évalué — obtient un score de 41,9 %, mais sa précision chute de 19,6 % (une diminution relative de 46,8 %) sur les Variations appariées. Les dix-huit autres modèles montrent la même tendance à la baisse, dix d'entre eux ayant des intervalles de confiance à 95 % non chevauchants. Ces écarts suggèrent une mémorisation et soulignent la nécessité de benchmarks dynamiques. Nous complétons la précision "encadrée" par la Teacher-Forced Accuracy (TFA), une métrique légère qui évalue directement les traces de raisonnement et automatise l'évaluation des preuves en langage naturel. Putnam-AXIOM fournit donc un cadre d'évaluation rigoureux et résilient à la contamination pour évaluer le raisonnement mathématique avancé des LLM. Les données et le code d'évaluation sont disponibles publiquement à l'adresse https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs) are approaching saturation, with some achieving > 90% accuracy, and are increasingly compromised by training-set contamination. We introduce Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn from the prestigious William Lowell Putnam Mathematical Competition, and Putnam-AXIOM Variation, an unseen companion set of 100 functional variants generated by programmatically perturbing variables and constants. The variation protocol produces an unlimited stream of equally difficult, unseen instances -- yielding a contamination-resilient test bed. On the Original set, OpenAI's o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy drops by 19.6% (46.8% relative decrease) on the paired Variations. The remaining eighteen models show the same downward trend, ten of them with non-overlapping 95% confidence intervals. These gaps suggest memorization and highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores reasoning traces and automates natural language proof evaluations. Putnam-AXIOM therefore provides a rigorous, contamination-resilient evaluation framework for assessing advanced mathematical reasoning of LLMs. Data and evaluation code are publicly available at https://github.com/brando90/putnam-axiom.
PDF12August 13, 2025