ChatPaper.aiChatPaper

MLLM은 학생의 생각을 읽을 수 있을까? 손글씨 수학 문제에 대한 다중모드 오류 분석의 해부

Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

March 26, 2026
저자: Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen
cs.AI

초록

학생의 손글씨 풀이 과정 평가는 맞춤형 교육 피드백에 중요하지만, 다양한 필체, 복잡한 레이아웃, 다양한 문제 해결 방식으로 인해 독특한 과제를 제시합니다. 기존 교육용 자연어 처리(NLP)는 주로 텍스트 응답에 집중하며, 실제 손글씨 풀이 과정에 내재된 복잡성과 다중 양식성(multimodality)을 간과해 왔습니다. 현재의 다중 양식 대형 언어 모델(MLLM)은 시각적 추론에 뛰어나지만 일반적으로 "응시자 관점"을 채택하여 학생의 오류를 진단하기보다 정답 생성에 중점을 둡니다. 이러한 격차를 해소하기 위해 우리는 실제 손글씨 수학 풀이 과정의 오류 설명 및 분류를 위해 특별히 설계된 새로운 벤치마크인 ScratchMath를 소개합니다. 우리의 데이터셋은 중국 초중등학생의 1,720개 수학 샘플로 구성되며, 7가지 정의된 오류 유형과 함께 두 가지 핵심 과제(오류 원인 설명(ECE) 및 오류 원인 분류(ECC))를 지원합니다. 이 데이터셋은 전문가 다단계 라벨링, 검토 및 검증을 통한 엄격한 인간-기계 협업 방식으로 세심하게 주석 처리되었습니다. 우리는 ScratchMath에서 16개의 주요 MLLM을 체계적으로 평가하여, 특히 시각 인식과 논리적 추론에서 인간 전문가 대비 큰 성능 격차를 확인했습니다. 사유 모델이 오픈소스 모델을 크게 앞섰으며, 대규모 추론 모델이 오류 설명에서 강력한 잠재력을 보였습니다. 모든 평가 데이터와 프레임워크는 향후 연구 촉진을 위해 공개되었습니다.
English
Assessing student handwritten scratchwork is crucial for personalized educational feedback but presents unique challenges due to diverse handwriting, complex layouts, and varied problem-solving approaches. Existing educational NLP primarily focuses on textual responses and neglects the complexity and multimodality inherent in authentic handwritten scratchwork. Current multimodal large language models (MLLMs) excel at visual reasoning but typically adopt an "examinee perspective", prioritizing generating correct answers rather than diagnosing student errors. To bridge these gaps, we introduce ScratchMath, a novel benchmark specifically designed for explaining and classifying errors in authentic handwritten mathematics scratchwork. Our dataset comprises 1,720 mathematics samples from Chinese primary and middle school students, supporting two key tasks: Error Cause Explanation (ECE) and Error Cause Classification (ECC), with seven defined error types. The dataset is meticulously annotated through rigorous human-machine collaborative approaches involving multiple stages of expert labeling, review, and verification. We systematically evaluate 16 leading MLLMs on ScratchMath, revealing significant performance gaps relative to human experts, especially in visual recognition and logical reasoning. Proprietary models notably outperform open-source models, with large reasoning models showing strong potential for error explanation. All evaluation data and frameworks are publicly available to facilitate further research.
PDF11March 28, 2026