AMO-Bench: I grandi modelli linguistici continuano a mostrare difficoltà nelle competizioni matematiche di livello scolastico superiore
AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
October 30, 2025
Autori: Shengnan An, Xunliang Cai, Xuezhi Cao, Xiaoyu Li, Yehao Lin, Junlin Liu, Xinxuan Lv, Dan Ma, Xuanlin Wang, Ziwen Wang, Shuang Zhou
cs.AI
Abstract
Presentiamo AMO-Bench, un benchmark avanzato per il ragionamento matematico con problemi di livello Olimpico o addirittura superiore, comprendente 50 problemi creati da esseri umani. I benchmark esistenti hanno ampiamente utilizzato competizioni matematiche di livello scolastico superiore per valutare le capacità di ragionamento matematico dei grandi modelli linguistici (LLM). Tuttavia, molte competizioni matematiche esistenti stanno diventando meno efficaci per valutare gli LLM di fascia alta a causa della saturazione delle prestazioni (ad esempio, AIME24/25). Per affrontare questo problema, AMO-Bench introduce sfide più rigorose assicurando che tutti i 50 problemi siano (1) convalidati incrociatamente da esperti per soddisfare almeno gli standard di difficoltà delle Olimpiadi Internazionali della Matematica (IMO), e (2) problemi interamente originali per prevenire possibili dispersioni di prestazioni dovute alla memorizzazione dei dati. Inoltre, ogni problema in AMO-Bench richiede solo una risposta finale piuttosto che una dimostrazione, consentendo una valutazione automatica e robusta. I risultati sperimentali su 26 LLM con AMO-Bench mostrano che anche il modello con le migliori prestazioni raggiunge solo il 52,4% di accuratezza su AMO-Bench, con la maggior parte degli LLM che ottiene un punteggio inferiore al 40%. Oltre a queste scarse prestazioni, la nostra ulteriore analisi rivela una promettente tendenza di scaling con l'aumento della potenza di calcolo al momento del test su AMO-Bench. Questi risultati evidenziano il margine di miglioramento significativo per il ragionamento matematico negli LLM attuali. Rilasciamo AMO-Bench per facilitare ulteriori ricerche per far avanzare le capacità di ragionamento dei modelli linguistici.
English
We present AMO-Bench, an Advanced Mathematical reasoning benchmark with
Olympiad level or even higher difficulty, comprising 50 human-crafted problems.
Existing benchmarks have widely leveraged high school math competitions for
evaluating mathematical reasoning capabilities of large language models (LLMs).
However, many existing math competitions are becoming less effective for
assessing top-tier LLMs due to performance saturation (e.g., AIME24/25). To
address this, AMO-Bench introduces more rigorous challenges by ensuring all 50
problems are (1) cross-validated by experts to meet at least the International
Mathematical Olympiad (IMO) difficulty standards, and (2) entirely original
problems to prevent potential performance leakages from data memorization.
Moreover, each problem in AMO-Bench requires only a final answer rather than a
proof, enabling automatic and robust grading for evaluation. Experimental
results across 26 LLMs on AMO-Bench show that even the best-performing model
achieves only 52.4% accuracy on AMO-Bench, with most LLMs scoring below 40%.
Beyond these poor performances, our further analysis reveals a promising
scaling trend with increasing test-time compute on AMO-Bench. These results
highlight the significant room for improving the mathematical reasoning in
current LLMs. We release AMO-Bench to facilitate further research into
advancing the reasoning abilities of language models.
https://amo-bench.github.io/