HorizonMath: Messung des KI-Fortschritts bei mathematischen Entdeckungen mit automatischer Verifizierung

Zusammenfassung

Kann KI bei wichtigen, ungelösten mathematischen Problemen Fortschritte erzielen? Große Sprachmodelle sind heute zu anspruchsvollem mathematischen und wissenschaftlichen Denken fähig, aber ob sie neuartige Forschung betreiben können, wird nach wie vor breit diskutiert und ist unzureichend erforscht. Wir stellen HorizonMath vor, einen Benchmark mit über 100 vorwiegend ungelösten Problemen aus acht Bereichen der computergestützten und angewandten Mathematik, kombiniert mit einem Open-Source-Evaluierungsframework für automatische Verifikation. Unser Benchmark zielt auf eine Problemklasse ab, bei der Entdeckung schwierig ist und bedeutungsvolle mathematische Einsicht erfordert, die Verifikation jedoch recheneffizient und einfach ist. Da diese Lösungen unbekannt sind, ist HorizonMath immun gegen Datenkontamination, und die meisten modernsten Modelle erzielen Ergebnisse nahe 0 %. Bestehende Forschungs-Benchmarks verlassen sich stattdessen auf formale Beweisverifikation oder manuelle Überprüfung, die beide in der Skalierung kostspielig sind. Mit dieser Plattform finden wir zwei Probleme, für die GPT 5.4 Pro Lösungen vorschlägt, die die besten publizierten Ergebnisse übertreffen und potenzielle neuartige Beiträge darstellen (vorbehaltlich Expertenüberprüfung). Wir veröffentlichen HorizonMath als eine offene Herausforderung und eine wachsende Community-Ressource, bei der korrekte Lösungen für Probleme in den ungelösten Problemklassen neuartige Ergebnisse in der mathematischen Literatur darstellen könnten.

English

Can AI make progress on important, unsolved mathematical problems? Large language models are now capable of sophisticated mathematical and scientific reasoning, but whether they can perform novel research is still widely debated and underexplored. We introduce HorizonMath, a benchmark of over 100 predominantly unsolved problems spanning 8 domains in computational and applied mathematics, paired with an open-source evaluation framework for automated verification. Our benchmark targets a class of problems where discovery is hard, requiring meaningful mathematical insight, but verification is computationally efficient and simple. Because these solutions are unknown, HorizonMath is immune to data contamination, and most state-of-the-art models score near 0%. Existing research-level benchmarks instead rely on formal proof verification or manual review, both of which are expensive to scale. Using this platform, we find two problems for which GPT 5.4 Pro proposes solutions that improve on the best-known published results, representing potential novel contributions (pending expert review). We release HorizonMath as an open challenge and a growing community resource, where correct solutions to problems in the unsolved problem classes could constitute novel results in the mathematical literature.

HorizonMath: Messung des KI-Fortschritts bei mathematischen Entdeckungen mit automatischer Verifizierung

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

Zusammenfassung

Support