ChatPaper.aiChatPaper

FlagEval-Bericht: Eine vorläufige Bewertung großer Reasoning-Modelle bei automatisch verifizierbaren textuellen und visuellen Fragen

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

September 21, 2025
papers.authors: Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang
cs.AI

papers.abstract

Wir führen eine mittelgroße, weitgehend kontaminationsfreie Bewertung aktueller großer Reasoning-Modelle (LRMs) durch und präsentieren einige vorläufige Ergebnisse. Zudem veröffentlichen wir ROME, unseren Evaluierungsbenchmark für Vision-Language-Modelle, der darauf abzielt, das Reasoning anhand visueller Hinweise zu testen. Wir stellen Links zum Benchmark, den Evaluierungsdaten und weiteren Updates auf dieser Website bereit: https://flageval-baai.github.io/LRM-Eval/
English
We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/
PDF132September 23, 2025