EDU-CIRCUIT-HW: Evaluierung multimodaler großer Sprachmodelle anhand realer handschriftlicher Lösungen von Studierenden in MINT-Fächern auf Universitätsniveau

Zusammenfassung

Multimodale Large Language Models (MLLMs) bergen ein erhebliches Potenzial, um das traditionelle Bildungswesen zu revolutionieren und die Arbeitsbelastung von Lehrkräften zu verringern. Die genaue Interpretation unstrukturierter, handschriftlicher MINT-Lösungen von Studierenden, die mathematische Formeln, Diagramme und textuelle Begründungen miteinander verweben, stellt jedoch eine erhebliche Herausforderung dar, da es an authentischen, domänenspezifischen Benchmarks mangelt. Zudem stützen sich aktuelle Evaluierungsparadigmen überwiegend auf die Ergebnisse nachgelagerter Aufgaben (z.B. automatische Bewertung), die oft nur einen Teil der erkannten Inhalte abfragen und somit das Verständnis der MLLMs für die komplexe handschriftliche Logik als Ganzes nicht erfassen. Um diese Lücke zu schließen, veröffentlichen wir EDU-CIRCUIT-HW, einen Datensatz mit über 1.300 authentischen, handschriftlichen Studierendenlösungen aus einer MINT-Lehrveranstaltung auf Universitätsniveau. Unter Verwendung von expertengeprüften, wortgetreuen Transkriptionen und Bewertungsberichten der Studierendenlösungen evaluieren wir gleichzeitig die Erfassungsgenauigkeit (Upstream) verschiedener MLLMs und ihre Leistung bei der automatischen Bewertung (Downstream). Unsere Auswertung deckt ein erstaunliches Ausmaß latenter Fehler in den von MLLMs erkannten handschriftlichen Inhalten auf und unterstreicht die unzureichende Zuverlässigkeit der Modelle für automatische Bewertungen und andere verständnisorientierte Anwendungen in hochriskanten Bildungskontexten. Als mögliche Lösung präsentieren wir eine Fallstudie, die zeigt, dass die präemptive Erkennung und Korrektur von Erfassungsfehlern auf Basis identifizierter Fehlermuster – bei nur minimalem menschlichem Eingriff (z.B. Weiterleitung von 3,3 % der Aufgaben an menschliche Prüfer und des Rests an den GPT-5.1-Bewerter) – die Robustheit des eingesetzten KI-gestützten Bewertungssystems wirksam steigern kann. Code und Datensatz sind in diesem GitHub-Repo verfügbar: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

English

Multimodal Large Language Models (MLLMs) hold significant promise for revolutionizing traditional education and reducing teachers' workload. However, accurately interpreting unconstrained STEM student handwritten solutions with intertwined mathematical formulas, diagrams, and textual reasoning poses a significant challenge due to the lack of authentic and domain-specific benchmarks. Additionally, current evaluation paradigms predominantly rely on the outcomes of downstream tasks (e.g., auto-grading), which often probe only a subset of the recognized content, thereby failing to capture the MLLMs' understanding of complex handwritten logic as a whole. To bridge this gap, we release EDU-CIRCUIT-HW, a dataset consisting of 1,300+ authentic student handwritten solutions from a university-level STEM course. Utilizing the expert-verified verbatim transcriptions and grading reports of student solutions, we simultaneously evaluate various MLLMs' upstream recognition fidelity and downstream auto-grading performance. Our evaluation uncovers an astonishing scale of latent failures within MLLM-recognized student handwritten content, highlighting the models' insufficient reliability for auto-grading and other understanding-oriented applications in high-stakes educational settings. As a potential solution, we present a case study demonstrating that leveraging identified error patterns to preemptively detect and correct recognition errors, while requiring only minimal human intervention (e.g., routing 3.3% of assignments to human graders and the remainder to the GPT-5.1 grader), can effectively enhance the robustness of the deployed AI-enabled grading system. Code and dataset are available in this GitHub repo: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

EDU-CIRCUIT-HW: Evaluierung multimodaler großer Sprachmodelle anhand realer handschriftlicher Lösungen von Studierenden in MINT-Fächern auf Universitätsniveau

EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Zusammenfassung

Support