Examen Final de Aula: Un Benchmark de Razonamiento Evaluado por Instructores

Resumen

Presentamos (Classroom Final Exam), un benchmark multimodal para evaluar las capacidades de razonamiento de los grandes modelos de lenguaje en más de 20 dominios STEM. está compilado a partir de problemas auténticos de tareas y exámenes universitarios utilizados repetidamente, junto con soluciones de referencia proporcionadas por los instructores del curso. representa un desafío significativo incluso para los modelos de vanguardia: el recién lanzado Gemini-3.1-pro-preview logra una precisión general del 59.69%, mientras que el segundo mejor modelo, Gemini-3-flash-preview, alcanza un 55.46%, lo que deja un margen de mejora considerable. Más allá de los resultados del ranking, realizamos un análisis diagnóstico descomponiendo las soluciones de referencia en flujos de razonamiento. Encontramos que, aunque los modelos de vanguardia a menudo pueden responder correctamente a subpreguntas intermedias, tienen dificultades para derivar y mantener de manera confiable estados intermedios correctos a lo largo de soluciones de múltiples pasos. Además, observamos que las soluciones generadas por el modelo suelen tener más pasos de razonamiento que las proporcionadas por el instructor, lo que indica una eficiencia de pasos subóptima y un mayor riesgo de acumulación de errores. Los datos y el código están disponibles en https://github.com/Analogy-AI/CFE_Bench.

English

We introduce (Classroom Final Exam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.

Examen Final de Aula: Un Benchmark de Razonamiento Evaluado por Instructores

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Resumen

Support