ComBench: Un benchmark para el razonamiento riguroso de demostraciones y la realización constructiva en combinatoria de nivel olímpico

Resumen

La combinatoria es fundamental para la resolución de problemas matemáticos de nivel olímpico, ya que requiere un razonamiento discreto profundo, construcciones creativas y una visión estructural rigurosa. Evidencias recientes sugieren que incluso los modelos de frontera más potentes actuales presentan un rendimiento desigual en combinatoria olímpica, revelando una brecha en el razonamiento matemático creativo. Presentamos ComBench, un punto de referencia de combinatoria de nivel olímpico para evaluar y diagnosticar las capacidades de razonamiento combinatorio de los modelos de lenguaje de gran escala. ComBench contiene 100 problemas de competencia anotados por humanos, organizados en dos entornos complementarios: problemas centrados en el análisis, que requieren principalmente argumentos matemáticos rigurosos, y problemas centrados en la construcción, que exigen construcciones explícitas además de justificaciones de corrección. El protocolo de evaluación combina la evaluación de pruebas guiada por rúbrica con la verificación determinista de construcciones, exponiendo casos en los que la calidad de la prueba y la validez de la construcción divergen. Los experimentos con modelos de frontera de código abierto y cerrado muestran que ComBench está lejos de saturarse: el modelo más fuerte alcanza un 65.4% en el promedio general y un 75.3% en el mejor resultado general en @4. Además, encontramos que el Razonamiento Riguroso de Pruebas y la Realización Constructiva son capacidades distintas: Kimi-K2.6 va por detrás de GPT-5.5 en la evaluación de pruebas centradas en el análisis, pero lo supera en el mejor resultado general en @4 centrado en la construcción, mientras que los problemas de Existencia y Construcción siguen siendo consistentemente los más difíciles en los modelos de frontera representativos.

English

Combinatorics is central to Olympiad-level mathematical problem solving, requiring deep discrete reasoning, creative constructions, and rigorous structural insight. Recent evidence suggests that even today's strongest frontier models remain uneven on Olympiad combinatorics, revealing a gap in creative mathematical reasoning. We introduce ComBench, an Olympiad-level combinatorics benchmark for evaluating and diagnosing the combinatorial reasoning capabilities of large language models. ComBench contains 100 human-annotated competition-level problems organized around two complementary settings: analysis-centric problems, which primarily require rigorous mathematical arguments, and construction-centric problems, which require explicit constructions in addition to correctness justifications. The evaluation protocol combines rubric-guided proof grading with deterministic construction verification, exposing cases where proof quality and construction validity diverge. Experiments on frontier open- and closed-source models show that ComBench is far from saturated: the strongest model reaches 65.4% overall Avg. and 75.3% overall Best@4. We further find that Rigorous Proof Reasoning and Constructive Realization are distinct capabilities: Kimi-K2.6 trails GPT-5.5 on analysis-centric proof grading but surpasses it on construction-centric Best@4, while Existence and Construction problems remain consistently hardest across representative frontier models.