Esame Finale in Classe: Un Benchmark di Ragionamento Collaudato da Istruttori

Abstract

Introduciamo (Classroom Final Exam), un benchmark multimodale per valutare le capacità di ragionamento dei grandi modelli linguistici in oltre 20 domini STEM. è curato a partire da problemi autentici di compiti a casa ed esami universitari utilizzati ripetutamente, insieme a soluzioni di riferimento fornite dai docenti dei corsi. rappresenta una sfida significativa anche per i modelli all'avanguardia: il nuovo modello Gemini-3.1-pro-preview raggiunge un'accuratezza complessiva del 59,69%, mentre il secondo modello migliore, Gemini-3-flash-preview, arriva al 55,46%, lasciando un ampio margine di miglioramento. Oltre ai risultati della classifica, eseguiamo un'analisi diagnostica scomponendo le soluzioni di riferimento in flussi di ragionamento. Troviamo che, sebbene i modelli all'avanguardia siano spesso in grado di rispondere correttamente a sotto-domande intermedie, faticano a derivare e mantenere in modo affidabile stati intermedi corretti durante soluzioni multi-step. Osserviamo inoltre che le soluzioni generate dai modelli hanno tipicamente più passaggi di ragionamento rispetto a quelle fornite dal docente, indicando un'efficienza dei passaggi non ottimale e un rischio maggiore di accumulo di errori. I dati e il codice sono disponibili su https://github.com/Analogy-AI/CFE_Bench.

English

We introduce (Classroom Final Exam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.

Esame Finale in Classe: Un Benchmark di Ragionamento Collaudato da Istruttori

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Abstract

Support