Exame Final de Sala de Aula: Um Benchmark de Raciocínio Testado por Instrutores

Resumo

Apresentamos o Classroom Final Exam (CFE), um benchmark multimodal para avaliar as capacidades de raciocínio de modelos de linguagem de grande escala em mais de 20 domínios STEM. O CFE é compilado a partir de problemas autênticos e repetidamente utilizados em tarefas de casa e exames universitários, juntamente com soluções de referência fornecidas pelos instrutores das disciplinas. O CFE representa um desafio significativo mesmo para os modelos de ponta: o recém-lançado Gemini-3.1-pro-preview alcança uma precisão geral de 59,69%, enquanto o segundo melhor modelo, Gemini-3-flash-preview, atinge 55,46%, deixando um espaço considerável para melhorias. Para além dos resultados do ranking, realizamos uma análise diagnóstica decompondo as soluções de referência em fluxos de raciocínio. Verificamos que, embora os modelos de ponta frequentemente respondam corretamente a subquestões intermédias, eles lutam para derivar e manter de forma confiável os estados intermédios corretos ao longo de soluções com múltiplos passos. Observamos ainda que as soluções geradas pelos modelos tipicamente têm mais etapas de raciocínio do que as fornecidas pelo instrutor, indicando uma eficiência de passos subótima e um maior risco de acumulação de erros. Os dados e o código estão disponíveis em https://github.com/Analogy-AI/CFE_Bench.

English

We introduce (Classroom Final Exam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.

Exame Final de Sala de Aula: Um Benchmark de Raciocínio Testado por Instrutores

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Resumo

Support