ChatPaper.aiChatPaper

HorizonMath: 자동 검증을 통한 수학적 발견을 향한 AI 진척도 측정

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

March 16, 2026
저자: Erik Y. Wang, Sumeet Motwani, James V. Roggeveen, Eliot Hodges, Dulhan Jayalath, Charles London, Kalyan Ramakrishnan, Flaviu Cipcigan, Philip Torr, Alessandro Abate
cs.AI

초록

AI가 중요한 미해결 수학 문제에 진전을 이룰 수 있을까? 대규모 언어 모델은 이제 정교한 수학 및 과학적 추론이 가능하지만, 새로운 연구를 수행할 수 있는지 여부는 여전히 널리 논쟁되고 있으며 충분히 탐구되지 않았습니다. 우리는 계산 및 응용 수학의 8개 영역에 걸친 100개 이상의 주로 미해결 문제로 구성된 벤치마크인 HorizonMath와 자동 검증을 위한 오픈소스 평가 프레임워크를 소개합니다. 우리의 벤치마크는 발견이 어렵고 의미 있는 수학적 통찰력을 요구하지만, 검증은 계산적으로 효율적이고 간단한 문제 유형을 대상으로 합니다. 이러한 해법은 알려지지 않았기 때문에 HorizonMath는 데이터 오염에 영향을 받지 않으며, 대부분의 최첨단 모델은 0%에 가까운 점수를 기록합니다. 기존 연구 수준 벤치마크는 공식적인 증명 검증이나 수동 검토에 의존하는데, 이 둘 모두 확장하기에 비용이 많이 듭니다. 이 플랫폼을 사용하여 GPT 5.4 Pro가 기존에 공개된 가장 우수한 결과를 개선하는 해법을 제안하는 두 가지 문제를 발견했으며, 이는 잠재적으로 새로운 기여가 될 수 있습니다(전문가 검토 진행 중). 우리는 HorizonMath를 오픈 챌린지 및 성장하는 커뮤니티 자원으로 공개하여, 미해결 문제 클래스에 대한 정확한 해법이 수학 문헌에서 새로운 결과가 될 수 있도록 합니다.
English
Can AI make progress on important, unsolved mathematical problems? Large language models are now capable of sophisticated mathematical and scientific reasoning, but whether they can perform novel research is still widely debated and underexplored. We introduce HorizonMath, a benchmark of over 100 predominantly unsolved problems spanning 8 domains in computational and applied mathematics, paired with an open-source evaluation framework for automated verification. Our benchmark targets a class of problems where discovery is hard, requiring meaningful mathematical insight, but verification is computationally efficient and simple. Because these solutions are unknown, HorizonMath is immune to data contamination, and most state-of-the-art models score near 0%. Existing research-level benchmarks instead rely on formal proof verification or manual review, both of which are expensive to scale. Using this platform, we find two problems for which GPT 5.4 Pro proposes solutions that improve on the best-known published results, representing potential novel contributions (pending expert review). We release HorizonMath as an open challenge and a growing community resource, where correct solutions to problems in the unsolved problem classes could constitute novel results in the mathematical literature.
PDF52March 18, 2026