Отчет о результатах FlagEval: Предварительная оценка крупных моделей рассуждений на автоматически проверяемых текстовых и визуальных вопросах
FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions
September 21, 2025
Авторы: Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang
cs.AI
Аннотация
Мы проводим умеренно масштабную, в некоторой степени свободную от загрязнения, оценку современных моделей с большими возможностями рассуждения (LRMs) с некоторыми предварительными результатами. Мы также выпускаем ROME, наш эталонный тест для оценки моделей, работающих с визуальными и языковыми данными, предназначенный для проверки способности рассуждать на основе визуальных подсказок. Мы прилагаем ссылки на эталонный тест, данные для оценки и другие обновления на этом сайте: https://flageval-baai.github.io/LRM-Eval/.
English
We conduct a moderate-scale contamination-free (to some extent) evaluation of
current large reasoning models (LRMs) with some preliminary findings. We also
release ROME, our evaluation benchmark for vision language models intended to
test reasoning from visual clues. We attach links to the benchmark, evaluation
data, and other updates on this website:
https://flageval-baai.github.io/LRM-Eval/