EDU-CIRCUIT-HW : Évaluation des modèles de langage de grande taille multimodaux sur des solutions manuscrites réelles d'étudiants en STEM de niveau universitaire
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
April 30, 2026
Auteurs: Weiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
cs.AI
Résumé
Les modèles de langage multimodaux (MLLM) présentent un potentiel considérable pour révolutionner l'éducation traditionnelle et réduire la charge de travail des enseignants. Cependant, l'interprétation précise de solutions manuscrites non contraintes d'étudiants en STEM, mêlant formules mathématiques, diagrammes et raisonnements textuels, constitue un défi majeur en raison de l'absence de benchmarks authentiques et spécifiques au domaine. De plus, les paradigmes d'évaluation actuels reposent principalement sur les résultats de tâches en aval (par exemple, la notation automatique), qui n'explorent souvent qu'un sous-ensemble du contenu reconnu, échouant ainsi à capturer la compréhension globale par les MLLM de la logique manuscrite complexe. Pour combler cette lacune, nous publions EDU-CIRCUIT-HW, un jeu de données comprenant plus de 1 300 solutions manuscrites authentiques d'étudiants issues d'un cours universitaire en STEM. En utilisant les transcriptions verbatim vérifiées par des experts et les rapports d'évaluation des solutions étudiantes, nous évaluons simultanément la fidélité de reconnaissance en amont et les performances de notation automatique en aval de divers MLLM. Notre évaluation révèle une échelle étonnante de défaillances latentes dans le contenu manuscrit étudiant reconnu par les MLLM, soulignant la fiabilité insuffisante des modèles pour la notation automatique et d'autres applications orientées compréhension dans des contextes éducatifs à enjeux élevés. Comme solution potentielle, nous présentons une étude de cas démontrant que l'exploitation des schémas d'erreur identifiés pour détecter et corriger préventivement les erreurs de reconnaissance, tout en nécessitant une intervention humaine minimale (par exemple, en redirigeant 3,3 % des devoirs vers des correcteurs humains et le reste vers le correcteur GPT-5.1), peut efficacement renforcer la robustesse du système de notation assisté par IA déployé. Le code et le jeu de données sont disponibles dans ce dépôt GitHub : https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.
English
Multimodal Large Language Models (MLLMs) hold significant promise for revolutionizing traditional education and reducing teachers' workload. However, accurately interpreting unconstrained STEM student handwritten solutions with intertwined mathematical formulas, diagrams, and textual reasoning poses a significant challenge due to the lack of authentic and domain-specific benchmarks. Additionally, current evaluation paradigms predominantly rely on the outcomes of downstream tasks (e.g., auto-grading), which often probe only a subset of the recognized content, thereby failing to capture the MLLMs' understanding of complex handwritten logic as a whole. To bridge this gap, we release EDU-CIRCUIT-HW, a dataset consisting of 1,300+ authentic student handwritten solutions from a university-level STEM course. Utilizing the expert-verified verbatim transcriptions and grading reports of student solutions, we simultaneously evaluate various MLLMs' upstream recognition fidelity and downstream auto-grading performance. Our evaluation uncovers an astonishing scale of latent failures within MLLM-recognized student handwritten content, highlighting the models' insufficient reliability for auto-grading and other understanding-oriented applications in high-stakes educational settings. As a potential solution, we present a case study demonstrating that leveraging identified error patterns to preemptively detect and correct recognition errors, while requiring only minimal human intervention (e.g., routing 3.3% of assignments to human graders and the remainder to the GPT-5.1 grader), can effectively enhance the robustness of the deployed AI-enabled grading system. Code and dataset are available in this GitHub repo: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.