MorphoBench : Un benchmark avec une difficulté adaptative au raisonnement des modèles
MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning
October 16, 2025
papers.authors: Xukai Wang, Xuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, Bohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong
cs.AI
papers.abstract
Avec l'avancée des modèles de raisonnement à grande échelle, l'évaluation efficace des capacités de raisonnement de ces modèles est devenue de plus en plus cruciale. Cependant, les benchmarks existants conçus pour évaluer les capacités de raisonnement des grands modèles ont tendance à être limités en portée et manquent de flexibilité pour adapter leur difficulté en fonction de l'évolution des capacités de raisonnement des modèles. Pour remédier à cela, nous proposons MorphoBench, un benchmark qui intègre des questions multidisciplinaires pour évaluer les capacités de raisonnement des grands modèles et peut ajuster et mettre à jour la difficulté des questions en fonction des capacités de raisonnement des modèles avancés. Plus précisément, nous avons constitué ce benchmark en sélectionnant et en collectant des questions complexes de raisonnement provenant de benchmarks existants et de sources telles que des compétitions de niveau Olympiade. De plus, MorphoBench modifie de manière adaptative le défi analytique des questions en exploitant les déclarations clés générées lors du processus de raisonnement du modèle. En outre, il inclut des questions générées à l'aide de logiciels de simulation, permettant un ajustement dynamique de la difficulté du benchmark avec une consommation minimale de ressources. Nous avons rassemblé plus de 1 300 questions de test et avons ajusté itérativement la difficulté de MorphoBench en fonction des capacités de raisonnement de modèles tels que o3 et GPT-5. MorphoBench améliore la exhaustivité et la validité de l'évaluation du raisonnement des modèles, fournissant des orientations fiables pour améliorer à la fois les capacités de raisonnement et la robustesse scientifique des grands modèles. Le code a été publié sur https://github.com/OpenDCAI/MorphoBench.
English
With the advancement of powerful large-scale reasoning models, effectively
evaluating the reasoning capabilities of these models has become increasingly
important. However, existing benchmarks designed to assess the reasoning
abilities of large models tend to be limited in scope and lack the flexibility
to adapt their difficulty according to the evolving reasoning capacities of the
models. To address this, we propose MorphoBench, a benchmark that incorporates
multidisciplinary questions to evaluate the reasoning capabilities of large
models and can adjust and update question difficulty based on the reasoning
abilities of advanced models. Specifically, we curate the benchmark by
selecting and collecting complex reasoning questions from existing benchmarks
and sources such as Olympiad-level competitions. Additionally, MorphoBench
adaptively modifies the analytical challenge of questions by leveraging key
statements generated during the model's reasoning process. Furthermore, it
includes questions generated using simulation software, enabling dynamic
adjustment of benchmark difficulty with minimal resource consumption. We have
gathered over 1,300 test questions and iteratively adjusted the difficulty of
MorphoBench based on the reasoning capabilities of models such as o3 and GPT-5.
MorphoBench enhances the comprehensiveness and validity of model reasoning
evaluation, providing reliable guidance for improving both the reasoning
abilities and scientific robustness of large models. The code has been released
in https://github.com/OpenDCAI/MorphoBench.