EDU-CIRCUIT-HW: Оценка мультимодальных больших языковых моделей на реальных рукописных решениях студентов университетов по дисциплинам STEM

Аннотация

Многомодальные большие языковые модели (МБЯМ) обладают значительным потенциалом для революционных преобразований в традиционном образовании и снижения нагрузки на преподавателей. Однако точная интерпретация неограниченных рукописных решений студентов по STEM-дисциплинам, содержащих переплетающиеся математические формулы, диаграммы и текстовые рассуждения, представляет собой серьёзную проблему из-за отсутствия аутентичных и предметно-ориентированных бенчмарков. Кроме того, современные парадигмы оценки в основном опираются на результаты последующих задач (например, автоматическое оценивание), которые часто проверяют лишь часть распознанного контента, тем самым не отражая понимание МБЯМ сложной рукописной логики в целом. Чтобы устранить этот пробел, мы представляем EDU-CIRCUIT-HW — набор данных, состоящий из 1300+ аутентичных рукописных решений студентов университетского курса по STEM-дисциплинам. Используя верифицированные экспертами дословные транскрипции и отчеты по оцениванию студенческих работ, мы одновременно оцениваем как точность распознавания различных МБЯМ на начальном этапе, так и их эффективность в задачах автоматического оценивания. Наша оценка выявляет удивительно масштабные скрытые ошибки в распознанном МБЯМ рукописном контенте студентов, подчеркивая недостаточную надежность моделей для автоматического оценивания и других задач, ориентированных на понимание, в ответственных образовательных сценариях. В качестве потенциального решения мы представляем кейс-стади, демонстрирующее, что использование выявленных шаблонов ошибок для упреждающего обнаружения и исправления ошибок распознавания, при минимальном вмешательстве человека (например, направляя 3.3% работ на проверку человеку, а остальные — системе GPT-5.1), может эффективно повысить устойчивость развернутой системы оценивания с искусственным интеллектом. Код и набор данных доступны в репозитории GitHub: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

English

Multimodal Large Language Models (MLLMs) hold significant promise for revolutionizing traditional education and reducing teachers' workload. However, accurately interpreting unconstrained STEM student handwritten solutions with intertwined mathematical formulas, diagrams, and textual reasoning poses a significant challenge due to the lack of authentic and domain-specific benchmarks. Additionally, current evaluation paradigms predominantly rely on the outcomes of downstream tasks (e.g., auto-grading), which often probe only a subset of the recognized content, thereby failing to capture the MLLMs' understanding of complex handwritten logic as a whole. To bridge this gap, we release EDU-CIRCUIT-HW, a dataset consisting of 1,300+ authentic student handwritten solutions from a university-level STEM course. Utilizing the expert-verified verbatim transcriptions and grading reports of student solutions, we simultaneously evaluate various MLLMs' upstream recognition fidelity and downstream auto-grading performance. Our evaluation uncovers an astonishing scale of latent failures within MLLM-recognized student handwritten content, highlighting the models' insufficient reliability for auto-grading and other understanding-oriented applications in high-stakes educational settings. As a potential solution, we present a case study demonstrating that leveraging identified error patterns to preemptively detect and correct recognition errors, while requiring only minimal human intervention (e.g., routing 3.3% of assignments to human graders and the remainder to the GPT-5.1 grader), can effectively enhance the robustness of the deployed AI-enabled grading system. Code and dataset are available in this GitHub repo: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

EDU-CIRCUIT-HW: Оценка мультимодальных больших языковых моделей на реальных рукописных решениях студентов университетов по дисциплинам STEM

EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Аннотация

Support