ComBench: Ein Benchmark für rigorose Beweisführung und konstruktive Realisierung in der Kombinatorik auf Olympiadeniveau

Zusammenfassung

Kombinatorik ist zentral für die Lösung mathematischer Probleme auf Olympiade-Niveau und erfordert tiefgehendes diskretes Denken, kreative Konstruktionen sowie rigorose strukturelle Einsichten. Neuere Erkenntnisse deuten darauf hin, dass selbst die stärksten heutigen Grenzmodelle im Bereich der Olympiade-Kombinatorik uneinheitlich bleiben, was eine Lücke im kreativen mathematischen Denken offenbart. Wir stellen ComBench vor, einen Benchmark für Kombinatorik auf Olympiade-Niveau zur Bewertung und Diagnose der kombinatorischen Denkfähigkeiten großer Sprachmodelle. ComBench umfasst 100 von Menschen annotierte Wettbewerbsprobleme, die um zwei komplementäre Bereiche organisiert sind: analysezentrierte Probleme, die hauptsächlich rigorose mathematische Argumente erfordern, und konstruktionszentrierte Probleme, die zusätzlich zu Korrektheitsbegründungen explizite Konstruktionen verlangen. Das Bewertungsprotokoll kombiniert leitfadengestützte Bewertung von Beweisen mit deterministischer Überprüfung von Konstruktionen, wobei Fälle aufgedeckt werden, in denen Beweisqualität und Konstruktionsgültigkeit auseinandergehen. Experimente mit offenen und geschlossenen Spitzenmodellen zeigen, dass ComBench bei weitem nicht ausgeschöpft ist: Das stärkste Modell erreicht 65,4 % Gesamtdurchschnitt und 75,3 % insgesamt Best@4. Wir stellen ferner fest, dass rigoroses Beweisdenken und konstruktive Umsetzung unterschiedliche Fähigkeiten sind: Kimi-K2.6 liegt bei der analysezentrierten Beweisbewertung hinter GPT-5.5 zurück, übertrifft es jedoch beim konstruktionszentrierten Best@4, während Existenz- und Konstruktionsprobleme durchgängig die schwierigsten bei repräsentativen Spitzenmodellen bleiben.

English

Combinatorics is central to Olympiad-level mathematical problem solving, requiring deep discrete reasoning, creative constructions, and rigorous structural insight. Recent evidence suggests that even today's strongest frontier models remain uneven on Olympiad combinatorics, revealing a gap in creative mathematical reasoning. We introduce ComBench, an Olympiad-level combinatorics benchmark for evaluating and diagnosing the combinatorial reasoning capabilities of large language models. ComBench contains 100 human-annotated competition-level problems organized around two complementary settings: analysis-centric problems, which primarily require rigorous mathematical arguments, and construction-centric problems, which require explicit constructions in addition to correctness justifications. The evaluation protocol combines rubric-guided proof grading with deterministic construction verification, exposing cases where proof quality and construction validity diverge. Experiments on frontier open- and closed-source models show that ComBench is far from saturated: the strongest model reaches 65.4% overall Avg. and 75.3% overall Best@4. We further find that Rigorous Proof Reasoning and Constructive Realization are distinct capabilities: Kimi-K2.6 trails GPT-5.5 on analysis-centric proof grading but surpasses it on construction-centric Best@4, while Existence and Construction problems remain consistently hardest across representative frontier models.