ChatPaper.aiChatPaper

Putnam-AXIOM: Un Punto de Referencia Funcional y Estático

Putnam-AXIOM: A Functional and Static Benchmark

August 5, 2025
Autores: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo
cs.AI

Resumen

Los puntos de referencia actuales para el razonamiento matemático en modelos de lenguaje de gran escala (LLMs) están alcanzando niveles de saturación, con algunos logrando una precisión superior al 90%, y se ven cada vez más comprometidos por la contaminación de los conjuntos de entrenamiento. Presentamos Putnam-AXIOM, un punto de referencia compuesto por 522 problemas de nivel universitario extraídos del prestigioso William Lowell Putnam Mathematical Competition, y Putnam-AXIOM Variation, un conjunto complementario de 100 variantes funcionales generadas mediante la perturbación programática de variables y constantes. El protocolo de variación produce un flujo ilimitado de instancias igualmente difíciles y no vistas anteriormente, lo que resulta en un banco de pruebas resistente a la contaminación. En el conjunto Original, el modelo o1-preview de OpenAI —el más fuerte evaluado— obtiene un 41.9% de precisión, pero esta disminuye en un 19.6% (una reducción relativa del 46.8%) en las Variaciones emparejadas. Los dieciocho modelos restantes muestran la misma tendencia a la baja, con diez de ellos presentando intervalos de confianza del 95% que no se superponen. Estas brechas sugieren memorización y resaltan la necesidad de puntos de referencia dinámicos. Complementamos la precisión "en caja" con la Precisión Forzada por el Profesor (TFA), una métrica ligera que evalúa directamente las trazas de razonamiento y automatiza la evaluación de pruebas en lenguaje natural. Por lo tanto, Putnam-AXIOM proporciona un marco de evaluación riguroso y resistente a la contaminación para evaluar el razonamiento matemático avanzado de los LLMs. Los datos y el código de evaluación están disponibles públicamente en https://github.com/brando90/putnam-axiom.
English
Current mathematical reasoning benchmarks for large language models (LLMs) are approaching saturation, with some achieving > 90% accuracy, and are increasingly compromised by training-set contamination. We introduce Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn from the prestigious William Lowell Putnam Mathematical Competition, and Putnam-AXIOM Variation, an unseen companion set of 100 functional variants generated by programmatically perturbing variables and constants. The variation protocol produces an unlimited stream of equally difficult, unseen instances -- yielding a contamination-resilient test bed. On the Original set, OpenAI's o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy drops by 19.6% (46.8% relative decrease) on the paired Variations. The remaining eighteen models show the same downward trend, ten of them with non-overlapping 95% confidence intervals. These gaps suggest memorization and highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores reasoning traces and automates natural language proof evaluations. Putnam-AXIOM therefore provides a rigorous, contamination-resilient evaluation framework for assessing advanced mathematical reasoning of LLMs. Data and evaluation code are publicly available at https://github.com/brando90/putnam-axiom.
PDF12August 13, 2025