FlagEval 평가 결과 보고서: 자동 검증 가능한 텍스트 및 시각적 질문에 대한 대규모 추론 모델의 예비 평가
FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions
September 21, 2025
저자: Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang
cs.AI
초록
우리는 현재의 대규모 추론 모델(LRMs)에 대해 어느 정도 오염 없는 중간 규모의 평가를 수행하고 몇 가지 예비 결과를 제시합니다. 또한 시각적 단서로부터의 추론 능력을 테스트하기 위한 비전 언어 모델 평가 벤치마크인 ROME을 공개합니다. 벤치마크, 평가 데이터 및 기타 업데이트에 대한 링크는 다음 웹사이트에 첨부되어 있습니다:
https://flageval-baai.github.io/LRM-Eval/
English
We conduct a moderate-scale contamination-free (to some extent) evaluation of
current large reasoning models (LRMs) with some preliminary findings. We also
release ROME, our evaluation benchmark for vision language models intended to
test reasoning from visual clues. We attach links to the benchmark, evaluation
data, and other updates on this website:
https://flageval-baai.github.io/LRM-Eval/