MorphoBench: 모델 추론에 적응 가능한 난이도를 가진 벤치마크
MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning
October 16, 2025
저자: Xukai Wang, Xuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, Bohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong
cs.AI
초록
강력한 대규모 추론 모델의 발전과 함께, 이러한 모델의 추론 능력을 효과적으로 평가하는 것이 점점 더 중요해지고 있다. 그러나 대형 모델의 추론 능력을 평가하기 위해 설계된 기존 벤치마크는 범위가 제한적이며, 모델의 진화하는 추론 능력에 따라 난이도를 유연하게 조정하는 데 한계가 있다. 이를 해결하기 위해, 우리는 다학제적 질문을 통합하여 대형 모델의 추론 능력을 평가하고, 고급 모델의 추론 능력에 따라 질문의 난이도를 조정 및 업데이트할 수 있는 MorphoBench를 제안한다. 구체적으로, 우리는 기존 벤치마크와 올림피아드 수준의 경쟁 문제 등에서 복잡한 추론 질문을 선별 및 수집하여 벤치마크를 구성하였다. 또한, MorphoBench는 모델의 추론 과정에서 생성된 핵심 문장을 활용하여 질문의 분석적 도전을 적응적으로 수정한다. 더 나아가, 시뮬레이션 소프트웨어를 사용하여 생성된 질문을 포함시켜, 최소한의 자원 소비로 벤치마크의 난이도를 동적으로 조정할 수 있도록 하였다. 우리는 1,300개 이상의 테스트 질문을 수집하고, o3 및 GPT-5와 같은 모델의 추론 능력을 기반으로 MorphoBench의 난이도를 반복적으로 조정하였다. MorphoBench는 모델 추론 평가의 포괄성과 타당성을 강화하여, 대형 모델의 추론 능력과 과학적 견고성을 개선하는 데 신뢰할 수 있는 지침을 제공한다. 코드는 https://github.com/OpenDCAI/MorphoBench에서 공개되었다.
English
With the advancement of powerful large-scale reasoning models, effectively
evaluating the reasoning capabilities of these models has become increasingly
important. However, existing benchmarks designed to assess the reasoning
abilities of large models tend to be limited in scope and lack the flexibility
to adapt their difficulty according to the evolving reasoning capacities of the
models. To address this, we propose MorphoBench, a benchmark that incorporates
multidisciplinary questions to evaluate the reasoning capabilities of large
models and can adjust and update question difficulty based on the reasoning
abilities of advanced models. Specifically, we curate the benchmark by
selecting and collecting complex reasoning questions from existing benchmarks
and sources such as Olympiad-level competitions. Additionally, MorphoBench
adaptively modifies the analytical challenge of questions by leveraging key
statements generated during the model's reasoning process. Furthermore, it
includes questions generated using simulation software, enabling dynamic
adjustment of benchmark difficulty with minimal resource consumption. We have
gathered over 1,300 test questions and iteratively adjusted the difficulty of
MorphoBench based on the reasoning capabilities of models such as o3 and GPT-5.
MorphoBench enhances the comprehensiveness and validity of model reasoning
evaluation, providing reliable guidance for improving both the reasoning
abilities and scientific robustness of large models. The code has been released
in https://github.com/OpenDCAI/MorphoBench.