ChatPaper.aiChatPaper

Putnam-AXIOM: Um Benchmark Funcional e Estático

Putnam-AXIOM: A Functional and Static Benchmark

August 5, 2025
Autores: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI

Resumo

Os benchmarks atuais de raciocínio matemático para modelos de linguagem de grande escala (LLMs) estão se aproximando da saturação, com alguns alcançando precisão > 90%, e estão cada vez mais comprometidos pela contaminação do conjunto de treinamento. Apresentamos o Putnam-AXIOM, um benchmark composto por 522 problemas de nível universitário extraídos do prestigiado William Lowell Putnam Mathematical Competition, e o Putnam-AXIOM Variation, um conjunto complementar inédito de 100 variantes funcionais geradas pela perturbação programática de variáveis e constantes. O protocolo de variação produz um fluxo ilimitado de instâncias igualmente difíceis e inéditas — resultando em um ambiente de teste resiliente à contaminação. No conjunto Original, o o1-preview da OpenAI — o modelo mais forte avaliado — alcança 41,9% de precisão, mas sua precisão cai 19,6% (redução relativa de 46,8%) nas Variações emparelhadas. Os dezoito modelos restantes mostram a mesma tendência de queda, com dez deles apresentando intervalos de confiança de 95% não sobrepostos. Essas lacunas sugerem memorização e destacam a necessidade de benchmarks dinâmicos. Complementamos a precisão "encaixotada" com a Teacher-Forced Accuracy (TFA), uma métrica leve que pontua diretamente os traços de raciocínio e automatiza a avaliação de provas em linguagem natural. O Putnam-AXIOM, portanto, fornece uma estrutura de avaliação rigorosa e resiliente à contaminação para avaliar o raciocínio matemático avançado de LLMs. Os dados e o código de avaliação estão disponíveis publicamente em https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs) are approaching saturation, with some achieving > 90% accuracy, and are increasingly compromised by training-set contamination. We introduce Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn from the prestigious William Lowell Putnam Mathematical Competition, and Putnam-AXIOM Variation, an unseen companion set of 100 functional variants generated by programmatically perturbing variables and constants. The variation protocol produces an unlimited stream of equally difficult, unseen instances -- yielding a contamination-resilient test bed. On the Original set, OpenAI's o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy drops by 19.6% (46.8% relative decrease) on the paired Variations. The remaining eighteen models show the same downward trend, ten of them with non-overlapping 95% confidence intervals. These gaps suggest memorization and highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores reasoning traces and automates natural language proof evaluations. Putnam-AXIOM therefore provides a rigorous, contamination-resilient evaluation framework for assessing advanced mathematical reasoning of LLMs. Data and evaluation code are publicly available at https://github.com/brando90/putnam-axiom.
PDF12August 13, 2025