FlagEval調査結果報告書:自動検証可能なテキストおよび視覚的質問に対する大規模推論モデルの予備的評価
FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions
September 21, 2025
著者: Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang
cs.AI
要旨
我々は、ある程度の汚染フリーな条件下で、現在の大規模推論モデル(LRMs)の中規模評価を実施し、いくつかの予備的な知見を得た。また、視覚的ヒントからの推論能力をテストするための評価ベンチマーク「ROME」を公開した。本ウェブサイト(https://flageval-baai.github.io/LRM-Eval/)では、ベンチマーク、評価データ、およびその他の更新情報へのリンクを提供している。
English
We conduct a moderate-scale contamination-free (to some extent) evaluation of
current large reasoning models (LRMs) with some preliminary findings. We also
release ROME, our evaluation benchmark for vision language models intended to
test reasoning from visual clues. We attach links to the benchmark, evaluation
data, and other updates on this website:
https://flageval-baai.github.io/LRM-Eval/