ChatPaper.aiChatPaper

AMO-Bench: 고등학교 수학 경시대회에서 여전히 부진하는 대규모 언어 모델

AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

October 30, 2025
저자: Shengnan An, Xunliang Cai, Xuezhi Cao, Xiaoyu Li, Yehao Lin, Junlin Liu, Xinxuan Lv, Dan Ma, Xuanlin Wang, Ziwen Wang, Shuang Zhou
cs.AI

초록

우리는 국제수학올림피아드(IMO) 이상의 난이도를 갖춘 50개의 인공 창작 문제로 구성된 고급 수학 추론 벤치마크인 AMO-Bench를 소개한다. 기존 벤치마크는 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위해 고등학교 수학 경시대회 문제를 광범위하게 활용해왔다. 그러나 AIME24/25와 같이 많은 기존 수학 경시대회 문제들은 성능 포화 현상으로 인해 최상위 LLM을 평가하는 데 점점 효과를 잃고 있다. 이를 해결하기 위해 AMO-Bench는 모든 50개 문제가 (1) 전문가들의 교차 검증을 통해 최소 IMO 난이도 기준을 충족하도록 하고, (2) 데이터 암기로 인한 성능 누출 가능성을 방지하기 위해 완전히 독창적인 문제로 구성되어 더 엄격한 도전 과제를 제시한다. 더불어 AMO-Bench의 각 문제는 증명이 아닌 최종 답안만을 요구하여 평가를 위한 자동화되고 강력한 채점이 가능하도록 했다. AMO-Bench에서 26개의 LLM에 대한 실험 결과, 가장 성능이 좋은 모델조차 52.4%의 정확도에 그쳤으며 대부분의 LLM은 40% 미만의 점수를 기록했다. 이러한 저조한 성능 이상으로, 추가 분석을 통해 테스트 시간 계산량 증가에 따른 유망한 스케일링 경향을 AMO-Bench에서 확인했다. 이러한 결과는 현재 LLM의 수학적 추론 능력 향상을 위한 여지가 상당함을 보여준다. 우리는 언어 모델의 추론 능력 발전을 위한 추가 연구를 촉진하기 위해 AMO-Bench를 공개한다. https://amo-bench.github.io/
English
We present AMO-Bench, an Advanced Mathematical reasoning benchmark with Olympiad level or even higher difficulty, comprising 50 human-crafted problems. Existing benchmarks have widely leveraged high school math competitions for evaluating mathematical reasoning capabilities of large language models (LLMs). However, many existing math competitions are becoming less effective for assessing top-tier LLMs due to performance saturation (e.g., AIME24/25). To address this, AMO-Bench introduces more rigorous challenges by ensuring all 50 problems are (1) cross-validated by experts to meet at least the International Mathematical Olympiad (IMO) difficulty standards, and (2) entirely original problems to prevent potential performance leakages from data memorization. Moreover, each problem in AMO-Bench requires only a final answer rather than a proof, enabling automatic and robust grading for evaluation. Experimental results across 26 LLMs on AMO-Bench show that even the best-performing model achieves only 52.4% accuracy on AMO-Bench, with most LLMs scoring below 40%. Beyond these poor performances, our further analysis reveals a promising scaling trend with increasing test-time compute on AMO-Bench. These results highlight the significant room for improving the mathematical reasoning in current LLMs. We release AMO-Bench to facilitate further research into advancing the reasoning abilities of language models. https://amo-bench.github.io/
PDF331December 2, 2025