ChatPaper.aiChatPaper

MorphoBench: モデルの推論能力に応じて難易度が適応するベンチマーク

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

October 16, 2025
著者: Xukai Wang, Xuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, Bohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong
cs.AI

要旨

大規模推論モデルの進化に伴い、これらのモデルの推論能力を効果的に評価することがますます重要になっています。しかし、大規模モデルの推論能力を評価するために設計された既存のベンチマークは、その範囲が限定的であり、モデルの進化する推論能力に応じて難易度を柔軟に調整する機能を欠いています。この問題に対処するため、我々はMorphoBenchを提案します。これは、大規模モデルの推論能力を評価するために学際的な問題を取り入れ、先進モデルの推論能力に基づいて問題の難易度を調整・更新できるベンチマークです。具体的には、既存のベンチマークやオリンピアドレベルの競技などのソースから複雑な推論問題を選定・収集することでベンチマークを構築します。さらに、MorphoBenchは、モデルの推論プロセス中に生成される重要なステートメントを活用して、問題の分析的難易度を適応的に変更します。また、シミュレーションソフトウェアを使用して生成された問題も含まれており、最小限のリソース消費でベンチマークの難易度を動的に調整することが可能です。我々は1,300以上のテスト問題を収集し、o3やGPT-5などのモデルの推論能力に基づいてMorphoBenchの難易度を反復的に調整しました。MorphoBenchは、モデルの推論評価の包括性と妥当性を向上させ、大規模モデルの推論能力と科学的堅牢性の改善に向けた信頼性の高い指針を提供します。コードはhttps://github.com/OpenDCAI/MorphoBenchで公開されています。
English
With the advancement of powerful large-scale reasoning models, effectively evaluating the reasoning capabilities of these models has become increasingly important. However, existing benchmarks designed to assess the reasoning abilities of large models tend to be limited in scope and lack the flexibility to adapt their difficulty according to the evolving reasoning capacities of the models. To address this, we propose MorphoBench, a benchmark that incorporates multidisciplinary questions to evaluate the reasoning capabilities of large models and can adjust and update question difficulty based on the reasoning abilities of advanced models. Specifically, we curate the benchmark by selecting and collecting complex reasoning questions from existing benchmarks and sources such as Olympiad-level competitions. Additionally, MorphoBench adaptively modifies the analytical challenge of questions by leveraging key statements generated during the model's reasoning process. Furthermore, it includes questions generated using simulation software, enabling dynamic adjustment of benchmark difficulty with minimal resource consumption. We have gathered over 1,300 test questions and iteratively adjusted the difficulty of MorphoBench based on the reasoning capabilities of models such as o3 and GPT-5. MorphoBench enhances the comprehensiveness and validity of model reasoning evaluation, providing reliable guidance for improving both the reasoning abilities and scientific robustness of large models. The code has been released in https://github.com/OpenDCAI/MorphoBench.
PDF193October 20, 2025