Klausurabschlussprüfung: Ein von Lehrkräften getesteter Bewertungsmaßstab für logisches Denken

Zusammenfassung

Wir stellen (Classroom Final Exam) vor, einen multimodalen Benchmark zur Bewertung der Fähigkeiten großer Sprachmodelle, logisch zu schlussfolgern, über mehr als 20 MINT-Domänen hinweg. wurde aus wiederholt verwendeten, authentischen Universitäts-Hausaufgaben und Klausuraufgaben zusammengestellt, zusammen mit Referenzlösungen, die von den Kursdozenten bereitgestellt wurden. stellt selbst für führende Modelle eine erhebliche Herausforderung dar: Das neu veröffentlichte Gemini-3.1-pro-preview erreicht eine Gesamtgenauigkeit von 59,69 %, während das zweitbeste Modell, Gemini-3-flash-preview, 55,46 % erreicht, was beträchtlichen Verbesserungsspielraum lässt. Über Leaderboard-Ergebnisse hinaus führen wir eine diagnostische Analyse durch, indem wir die Referenzlösungen in logische Lösungsflüsse zerlegen. Wir stellen fest, dass führende Modelle zwar oft Zwischenfragen korrekt beantworten können, sie jedoch Schwierigkeiten haben, korrekte Zwischenzustände über mehrstufige Lösungen hinweg zuverlässig abzuleiten und beizubehalten. Weiterhin beobachten wir, dass modellgenerierte Lösungen typischerweise mehr Lösungsschritte aufweisen als die vom Dozenten bereitgestellten, was auf eine suboptimale Schritteffizienz und ein höheres Risiko der Fehlerakkumulation hindeutet. Die Daten und der Code sind unter https://github.com/Analogy-AI/CFE_Bench verfügbar.

English

We introduce (Classroom Final Exam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.

Klausurabschlussprüfung: Ein von Lehrkräften getesteter Bewertungsmaßstab für logisches Denken

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Zusammenfassung

Support