ChatPaper.aiChatPaper

AMO-Bench: 大規模言語モデルは依然として高校数学競技で苦戦中

AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

October 30, 2025
著者: Shengnan An, Xunliang Cai, Xuezhi Cao, Xiaoyu Li, Yehao Lin, Junlin Liu, Xinxuan Lv, Dan Ma, Xuanlin Wang, Ziwen Wang, Shuang Zhou
cs.AI

要旨

我々はAMO-Benchを提案する。これは国際数学オリンピック(IMO)以上の難易度を持つ高度な数学的推論ベンチマークであり、50問の人手による厳選された問題で構成されている。既存のベンチマークでは、大規模言語モデル(LLM)の数学的推論能力評価に高校数学競技会の問題が広く用いられてきた。しかし、AIME24/25のように性能飽和が生じている既存の数学競技会の多くは、最先端LLMの評価において効果性が低下している。この課題に対処するため、AMO-Benchでは以下の2点を保証することでより厳格な挑戦を提供する:(1)専門家による相互検証を経てIMO難易度基準を満たすこと、(2)データ記憶による性能漏洩を防ぐため完全に独自に作成された問題であること。さらに、AMO-Benchの各問題は証明ではなく最終解答のみを要求するため、自動的かつ頑健な採点が可能である。26のLLMで実施した実験結果では、最高性能モデルでもAMO-Benchにおいて52.4%の精度に留まり、大半のLLMは40%未満のスコアであった。これらの低性能を超えて、さらなる分析ではテスト時計算量の増加に伴う有望なスケーリング傾向が明らかとなった。これらの結果は、現行LLMの数学的推論能力には大きな改善余地があることを示唆している。我々はAMO-Benchを公開し、言語モデルの推論能力向上に向けた研究の促進に貢献する。
English
We present AMO-Bench, an Advanced Mathematical reasoning benchmark with Olympiad level or even higher difficulty, comprising 50 human-crafted problems. Existing benchmarks have widely leveraged high school math competitions for evaluating mathematical reasoning capabilities of large language models (LLMs). However, many existing math competitions are becoming less effective for assessing top-tier LLMs due to performance saturation (e.g., AIME24/25). To address this, AMO-Bench introduces more rigorous challenges by ensuring all 50 problems are (1) cross-validated by experts to meet at least the International Mathematical Olympiad (IMO) difficulty standards, and (2) entirely original problems to prevent potential performance leakages from data memorization. Moreover, each problem in AMO-Bench requires only a final answer rather than a proof, enabling automatic and robust grading for evaluation. Experimental results across 26 LLMs on AMO-Bench show that even the best-performing model achieves only 52.4% accuracy on AMO-Bench, with most LLMs scoring below 40%. Beyond these poor performances, our further analysis reveals a promising scaling trend with increasing test-time compute on AMO-Bench. These results highlight the significant room for improving the mathematical reasoning in current LLMs. We release AMO-Bench to facilitate further research into advancing the reasoning abilities of language models. https://amo-bench.github.io/
PDF331December 2, 2025