MorphoBench: Een benchmark met moeilijkheidsgraad die zich aanpast aan het redeneervermogen van het model
MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning
October 16, 2025
Auteurs: Xukai Wang, Xuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, Bohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong
cs.AI
Samenvatting
Met de vooruitgang van krachtige grootschalige redeneermodellen is het effectief evalueren van de redeneercapaciteiten van deze modellen steeds belangrijker geworden. Bestaande benchmarks die zijn ontworpen om de redeneervaardigheden van grote modellen te beoordelen, zijn echter vaak beperkt in omvang en missen de flexibiliteit om hun moeilijkheidsgraad aan te passen aan de evoluerende redeneercapaciteiten van de modellen. Om dit aan te pakken, stellen we MorphoBench voor, een benchmark die multidisciplinaire vragen incorporeert om de redeneercapaciteiten van grote modellen te evalueren en die de moeilijkheidsgraad van vragen kan aanpassen en bijwerken op basis van de redeneervaardigheden van geavanceerde modellen. Specifiek hebben we de benchmark samengesteld door complexe redeneervragen te selecteren en te verzamelen uit bestaande benchmarks en bronnen zoals Olympiad-niveau competities. Daarnaast past MorphoBench de analytische uitdaging van vragen adaptief aan door gebruik te maken van sleutelverklaringen die worden gegenereerd tijdens het redeneerproces van het model. Bovendien bevat het vragen die zijn gegenereerd met behulp van simulatiesoftware, waardoor de moeilijkheidsgraad van de benchmark dynamisch kan worden aangepast met minimale resourceverbruik. We hebben meer dan 1.300 testvragen verzameld en de moeilijkheidsgraad van MorphoBench iteratief aangepast op basis van de redeneercapaciteiten van modellen zoals o3 en GPT-5. MorphoBench verbetert de volledigheid en validiteit van de evaluatie van modelredenering en biedt betrouwbare richtlijnen voor het verbeteren van zowel de redeneervaardigheden als de wetenschappelijke robuustheid van grote modellen. De code is vrijgegeven op https://github.com/OpenDCAI/MorphoBench.
English
With the advancement of powerful large-scale reasoning models, effectively
evaluating the reasoning capabilities of these models has become increasingly
important. However, existing benchmarks designed to assess the reasoning
abilities of large models tend to be limited in scope and lack the flexibility
to adapt their difficulty according to the evolving reasoning capacities of the
models. To address this, we propose MorphoBench, a benchmark that incorporates
multidisciplinary questions to evaluate the reasoning capabilities of large
models and can adjust and update question difficulty based on the reasoning
abilities of advanced models. Specifically, we curate the benchmark by
selecting and collecting complex reasoning questions from existing benchmarks
and sources such as Olympiad-level competitions. Additionally, MorphoBench
adaptively modifies the analytical challenge of questions by leveraging key
statements generated during the model's reasoning process. Furthermore, it
includes questions generated using simulation software, enabling dynamic
adjustment of benchmark difficulty with minimal resource consumption. We have
gathered over 1,300 test questions and iteratively adjusted the difficulty of
MorphoBench based on the reasoning capabilities of models such as o3 and GPT-5.
MorphoBench enhances the comprehensiveness and validity of model reasoning
evaluation, providing reliable guidance for improving both the reasoning
abilities and scientific robustness of large models. The code has been released
in https://github.com/OpenDCAI/MorphoBench.