ComBench : Un benchmark pour le raisonnement de preuve rigoureux et la réalisation constructive en combinatoire de niveau olympiade

Résumé

La combinatoire est centrale dans la résolution de problèmes mathématiques de niveau olympiade, nécessitant un raisonnement discret approfondi, des constructions créatives et une perspicacité structurelle rigoureuse. Des travaux récents suggèrent que même les modèles de pointe actuels restent inégaux face aux problèmes de combinatoire de type olympiade, révélant une lacune dans le raisonnement mathématique créatif. Nous présentons ComBench, un benchmark de combinatoire de niveau olympiade pour évaluer et diagnostiquer les capacités de raisonnement combinatoire des grands modèles de langage. ComBench contient 100 problèmes de compétition annotés par des humains, organisés autour de deux cadres complémentaires : les problèmes centrés sur l'analyse, qui requièrent principalement des arguments mathématiques rigoureux, et les problèmes centrés sur la construction, qui exigent des constructions explicites en plus de justifications de correction. Le protocole d'évaluation combine la notation de preuves guidée par une grille d'évaluation avec une vérification déterministe des constructions, mettant en lumière les cas où la qualité de la preuve et la validité de la construction divergent. Les expériences menées sur des modèles de pointe open-source et fermés montrent que ComBench est loin d'être saturé : le meilleur modèle atteint 65,4 % global en moyenne et 75,3 % global en Best@4. Nous constatons en outre que le Raisonnement rigoureux par preuve et la Réalisation constructive sont des capacités distinctes : Kimi-K2.6 accuse un retard sur GPT-5.5 en notation de preuves des problèmes centrés sur l'analyse, mais le dépasse en Best@4 pour les problèmes centrés sur la construction, tandis que les problèmes d'Existence et de Construction restent systématiquement les plus difficiles pour les modèles de pointe représentatifs.

English

Combinatorics is central to Olympiad-level mathematical problem solving, requiring deep discrete reasoning, creative constructions, and rigorous structural insight. Recent evidence suggests that even today's strongest frontier models remain uneven on Olympiad combinatorics, revealing a gap in creative mathematical reasoning. We introduce ComBench, an Olympiad-level combinatorics benchmark for evaluating and diagnosing the combinatorial reasoning capabilities of large language models. ComBench contains 100 human-annotated competition-level problems organized around two complementary settings: analysis-centric problems, which primarily require rigorous mathematical arguments, and construction-centric problems, which require explicit constructions in addition to correctness justifications. The evaluation protocol combines rubric-guided proof grading with deterministic construction verification, exposing cases where proof quality and construction validity diverge. Experiments on frontier open- and closed-source models show that ComBench is far from saturated: the strongest model reaches 65.4% overall Avg. and 75.3% overall Best@4. We further find that Rigorous Proof Reasoning and Constructive Realization are distinct capabilities: Kimi-K2.6 trails GPT-5.5 on analysis-centric proof grading but surpasses it on construction-centric Best@4, while Existence and Construction problems remain consistently hardest across representative frontier models.