ComBench: Бенчмарк для строгого доказательного рассуждения и конструктивной реализации в комбинаторике олимпиадного уровня
ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics
June 9, 2026
Авторы: Shunkai Zhang, Haoran Zhang, Yun Luo, Qianjia Cheng, Haodi Lei, Yizhuo Li, Runzhe Zhan, Zhilin Wang, Bangjie Xu, Yucheng Su, Xinmiao Han, Xiaoye Qu, Dongrui Liu, Zhouchen Lin, Yu Qiao, Ning Ding, Yafu Li, Yu Cheng
cs.AI
Аннотация
Комбинаторика занимает центральное место в решении математических задач олимпиадного уровня, требуя глубоких дискретных рассуждений, творческих построений и строгого структурного понимания. Недавние данные свидетельствуют о том, что даже сильнейшие современные передовые модели демонстрируют неравномерные результаты в олимпиадной комбинаторике, что указывает на пробел в творческом математическом мышлении. Мы представляем ComBench — эталонный тест олимпиадного уровня по комбинаторике для оценки и диагностики комбинаторных рассуждений больших языковых моделей. ComBench содержит 100 задач соревновательного уровня, размеченных вручную, которые сгруппированы по двум взаимодополняющим категориям: задачи, ориентированные на анализ (требующие в первую очередь строгих математических обоснований), и задачи, ориентированные на конструирование (требующие явных построений в дополнение к обоснованию корректности). Протокол оценки сочетает рубрицированное оценивание доказательств с детерминированной верификацией конструкций, выявляя случаи расхождения между качеством доказательства и корректностью конструкции. Эксперименты на передовых моделях с открытым и закрытым исходным кодом показывают, что ComBench далёк от насыщения: сильнейшая модель достигает 65,4% общего среднего показателя и 75,3% общего Best@4. Кроме того, мы обнаруживаем, что строгое доказательное рассуждение и конструктивная реализация являются различными способностями: Kimi-K2.6 отстаёт от GPT-5.5 в рубрицированном оценивании доказательств для задач, ориентированных на анализ, но превосходит его по показателю Best@4 для задач, ориентированных на конструирование, в то время как задачи на существование и конструирование остаются неизменно наиболее сложными для всех типичных передовых моделей.
English
Combinatorics is central to Olympiad-level mathematical problem solving, requiring deep discrete reasoning, creative constructions, and rigorous structural insight. Recent evidence suggests that even today's strongest frontier models remain uneven on Olympiad combinatorics, revealing a gap in creative mathematical reasoning. We introduce ComBench, an Olympiad-level combinatorics benchmark for evaluating and diagnosing the combinatorial reasoning capabilities of large language models. ComBench contains 100 human-annotated competition-level problems organized around two complementary settings: analysis-centric problems, which primarily require rigorous mathematical arguments, and construction-centric problems, which require explicit constructions in addition to correctness justifications. The evaluation protocol combines rubric-guided proof grading with deterministic construction verification, exposing cases where proof quality and construction validity diverge. Experiments on frontier open- and closed-source models show that ComBench is far from saturated: the strongest model reaches 65.4% overall Avg. and 75.3% overall Best@4. We further find that Rigorous Proof Reasoning and Constructive Realization are distinct capabilities: Kimi-K2.6 trails GPT-5.5 on analysis-centric proof grading but surpasses it on construction-centric Best@4, while Existence and Construction problems remain consistently hardest across representative frontier models.