EDU-CIRCUIT-HW: Evaluatie van Multimodale Grote Taalmodellen op Realistische Handgeschreven Oplossingen van Universitaire STEM-Studenten
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
April 30, 2026
Auteurs: Weiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) houden grote belofte in voor het revolutioneren van het traditionele onderwijs en het verminderen van de werkdruk van docenten. Het nauwkeurig interpreteren van onbeperkte, handgeschreven oplossingen van STEM-studenten met verweven wiskundige formules, diagrammen en tekstuele redeneringen vormt echter een grote uitdaging, vanwege het gebrek aan authentieke en domeinspecifieke benchmarks. Bovendien zijn de huidige evaluatieparadigma's hoofdzakelijk gebaseerd op de resultaten van downstreamtaken (bijvoorbeeld automatisch beoordelen), die vaak slechts een subset van de herkende inhoud onderzoeken, waardoor het algehele begrip van de MLLM's van complexe handgeschreven logica niet wordt vastgelegd. Om deze kloof te overbruggen, presenteren wij EDU-CIRCUIT-HW, een dataset bestaande uit meer dan 1300 authentieke handgeschreven studentenoplossingen uit een STEM-cursus op universitair niveau. Door gebruik te maken van expert-geverifieerde letterlijke transcripties en beoordelingsrapporten van studentenoplossingen, evalueren wij gelijktijdig de upstream-herkenningstrouw en de downstream-prestaties bij automatisch beoordelen van verschillende MLLM's. Onze evaluatie legt een verbazingwekkende omvang van latente fouten bloot binnen de door MLLM's herkende handgeschreven studenteninhoud, wat de onvoldoende betrouwbaarheid van de modellen voor automatisch beoordelen en andere op begrip gerichte toepassingen in hoogwaardige onderwijscontexten benadrukt. Als mogelijke oplossing presenteren wij een casestudy die aantoont dat het benutten van geïdentificeerde foutpatronen om herkenningsfouten proactief op te sporen en te corrigeren, terwijl slechts minimale menselijke interventie vereist is (bijvoorbeeld het doorsturen van 3,3% van de opdrachten naar menselijke beoordelaars en de rest naar de GPT-5.1-beoordelaar), de robuustheid van het geïmplementeerde AI-gestelde beoordelingssysteem effectief kan verbeteren. Code en dataset zijn beschikbaar in deze GitHub-repository: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.
English
Multimodal Large Language Models (MLLMs) hold significant promise for revolutionizing traditional education and reducing teachers' workload. However, accurately interpreting unconstrained STEM student handwritten solutions with intertwined mathematical formulas, diagrams, and textual reasoning poses a significant challenge due to the lack of authentic and domain-specific benchmarks. Additionally, current evaluation paradigms predominantly rely on the outcomes of downstream tasks (e.g., auto-grading), which often probe only a subset of the recognized content, thereby failing to capture the MLLMs' understanding of complex handwritten logic as a whole. To bridge this gap, we release EDU-CIRCUIT-HW, a dataset consisting of 1,300+ authentic student handwritten solutions from a university-level STEM course. Utilizing the expert-verified verbatim transcriptions and grading reports of student solutions, we simultaneously evaluate various MLLMs' upstream recognition fidelity and downstream auto-grading performance. Our evaluation uncovers an astonishing scale of latent failures within MLLM-recognized student handwritten content, highlighting the models' insufficient reliability for auto-grading and other understanding-oriented applications in high-stakes educational settings. As a potential solution, we present a case study demonstrating that leveraging identified error patterns to preemptively detect and correct recognition errors, while requiring only minimal human intervention (e.g., routing 3.3% of assignments to human graders and the remainder to the GPT-5.1 grader), can effectively enhance the robustness of the deployed AI-enabled grading system. Code and dataset are available in this GitHub repo: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.