Финальный экзамен в аудитории: проверенный преподавателями бенчмарк для оценки способности к рассуждению

Аннотация

Мы представляем (Classroom Final Exam) — мультимодальный бенчмарк для оценки способностей больших языковых моделей к рассуждениям в более чем 20 предметных областях STEM. Бенчмарк составлен из реальных, многократно использовавшихся домашних заданий и экзаменационных задач университетского уровня, сопровождаемых эталонными решениями, предоставленными преподавателями курсов. представляет собой серьёзное испытание даже для передовых моделей: недавно выпущенная Gemini-3.1-pro-preview демонстрирует общую точность 59,69%, в то время как следующая за ней модель, Gemini-3-flash-preview, достигает 55,46%, что указывает на значительный потенциал для улучшений. Помимо результатов лидерборда, мы проводим диагностический анализ, декомпозируя эталонные решения на последовательности рассуждений. Мы обнаружили, что хотя передовые модели часто правильно отвечают на промежуточные подвопросы, они испытывают трудности с надёжным выводом и поддержанием корректных промежуточных состояний на протяжении многошаговых решений. Мы также наблюдаем, что сгенерированные моделями решения обычно содержат больше шагов рассуждений по сравнению с решениями преподавателей, что указывает на неоптимальную эффективность шагов и более высокий риск накопления ошибок. Данные и код доступны по адресу https://github.com/Analogy-AI/CFE_Bench.

English

We introduce (Classroom Final Exam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.

Финальный экзамен в аудитории: проверенный преподавателями бенчмарк для оценки способности к рассуждению

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Аннотация

Support