EDU-CIRCUIT-HW: Evaluación de Modelos de Lenguaje Grandes Multimodales en Soluciones Escritas a Mano de Estudiantes Universitarios de STEM del Mundo Real
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
April 30, 2026
Autores: Weiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) tienen un gran potencial para revolucionar la educación tradicional y reducir la carga de trabajo de los docentes. Sin embargo, interpretar con precisión las soluciones manuscritas sin restricciones de estudiantes de STEM, que combinan fórmulas matemáticas, diagramas y razonamientos textuales, representa un desafío significativo debido a la falta de puntos de referencia auténticos y específicos del dominio. Además, los paradigmas de evaluación actuales se basan predominantemente en los resultados de tareas posteriores (por ejemplo, la calificación automática), que a menudo solo examinan un subconjunto del contenido reconocido, fallando así en capturar la comprensión que los MLLMs tienen de la lógica manuscrita compleja en su conjunto. Para cerrar esta brecha, presentamos EDU-CIRCUIT-HW, un conjunto de datos que consta de más de 1.300 soluciones manuscritas auténticas de estudiantes de un curso universitario de STEM. Utilizando las transcripciones textuales verificadas por expertos y los informes de calificación de las soluciones estudiantiles, evaluamos simultáneamente la fidelidad de reconocimiento primario y el rendimiento en la calificación automática secundaria de varios MLLMs. Nuestra evaluación revela una escala asombrosa de fallos latentes dentro del contenido manuscrito estudiantil reconocido por los MLLMs, lo que subraya la fiabilidad insuficiente de los modelos para la calificación automática y otras aplicaciones orientadas a la comprensión en entornos educativos de alto impacto. Como solución potencial, presentamos un estudio de caso que demuestra que el aprovechamiento de los patrones de error identificados para detectar y corregir de forma preventiva los errores de reconocimiento, requiriendo solo una intervención humana mínima (por ejemplo, derivando el 3.3% de las tareas a calificadores humanos y el resto al calificador GPT-5.1), puede mejorar eficazmente la robustez del sistema de calificación habilitado por IA implementado. El código y el conjunto de datos están disponibles en este repositorio de GitHub: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.
English
Multimodal Large Language Models (MLLMs) hold significant promise for revolutionizing traditional education and reducing teachers' workload. However, accurately interpreting unconstrained STEM student handwritten solutions with intertwined mathematical formulas, diagrams, and textual reasoning poses a significant challenge due to the lack of authentic and domain-specific benchmarks. Additionally, current evaluation paradigms predominantly rely on the outcomes of downstream tasks (e.g., auto-grading), which often probe only a subset of the recognized content, thereby failing to capture the MLLMs' understanding of complex handwritten logic as a whole. To bridge this gap, we release EDU-CIRCUIT-HW, a dataset consisting of 1,300+ authentic student handwritten solutions from a university-level STEM course. Utilizing the expert-verified verbatim transcriptions and grading reports of student solutions, we simultaneously evaluate various MLLMs' upstream recognition fidelity and downstream auto-grading performance. Our evaluation uncovers an astonishing scale of latent failures within MLLM-recognized student handwritten content, highlighting the models' insufficient reliability for auto-grading and other understanding-oriented applications in high-stakes educational settings. As a potential solution, we present a case study demonstrating that leveraging identified error patterns to preemptively detect and correct recognition errors, while requiring only minimal human intervention (e.g., routing 3.3% of assignments to human graders and the remainder to the GPT-5.1 grader), can effectively enhance the robustness of the deployed AI-enabled grading system. Code and dataset are available in this GitHub repo: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.