Eindexamen in de Klas: Een Door Docenten Geteste Redeneerbenchmark

Samenvatting

Wij introduceren Classroom Final Exam (CFE), een multimodaal benchmark voor het evalueren van de redeneercapaciteiten van grote taalmodellen in meer dan 20 STEM-domeinen. CFE is samengesteld uit herhaaldelijk gebruikte, authentieke universitaire huiswerk- en examenopgaven, samen met referentieoplossingen die door cursusdocenten zijn verstrekt. CFE vormt een aanzienlijke uitdaging, zelfs voor toonaangevende modellen: het nieuw uitgebrachte Gemini-3.1-pro-preview behaalt een algemene nauwkeurigheid van 59,69%, terwijl het op een na beste model, Gemini-3-flash-preview, 55,46% bereikt, wat aanzienlijke ruimte voor verbetering laat. Naast de leaderboard-resultaten voeren we een diagnostische analyse uit door referentieoplossingen op te splitsen in redeneerstromen. Wij constateren dat toonaangevende modellen vaak wel de juiste antwoorden kunnen geven op tussentijdse deelvragen, maar moeite hebben om gedurende meerstapsoplossingen betrouwbaar correcte tussenstadia af te leiden en te behouden. Verder observeren we dat door modellen gegenereerde oplossingen doorgaans meer redeneerstappen hebben dan die van de docent, wat wijst op suboptimale stapefficiëntie en een hoger risico op foutaccumulatie. De data en code zijn beschikbaar op https://github.com/Analogy-AI/CFE_Bench.

English

We introduce (Classroom Final Exam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.

Eindexamen in de Klas: Een Door Docenten Geteste Redeneerbenchmark

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Samenvatting

Support