MLLMは生徒の思考を読み解けるか?手書き数学答案におけるマルチモーダル誤り分析の解明
Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math
March 26, 2026
著者: Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen
cs.AI
要旨
学生の手書き計算過程の評価は、個別化された教育的フィードバックにおいて重要であるが、多様な筆跡、複雑なレイアウト、様々な問題解決アプローチにより、特有の課題を抱えている。既存の教育向け自然言語処理は主にテキスト回答に焦点を当てており、実際の手書き計算過程に内在する複雑性とマルチモーダル性を看過している。現在のマルチモーダル大規模言語モデルは視覚的推論に優れるが、一般的に「解答者視点」を採用し、正答の生成を優先し、学生の誤りの診断を軽視する傾向がある。これらの課題を埋めるため、我々は実際の手書き数学計算過程における誤りの説明と分類に特化した新規ベンチマーク「ScratchMath」を提案する。本データセットは中国の小中学生から収集した1,720件の数学サンプルから構成され、誤り原因説明と誤り原因分類の2つの主要タスクを支援し、7種類の誤り類型を定義する。データセットは、専門家による多段階のラベリング、レビュー、検証を含む厳密な人間-機械協働アプローチを通じて入念に注釈されている。16種類の主要なマルチモーダル大規模言語モデルをScratchMathで系統的に評価した結果、特に視覚認識と論理的推論において、人間の専門家との間に顕著な性能差が存在することが明らかになった。プロプライエタリモデルはオープンソースモデルを有意に上回り、大規模推論モデルが誤り説明において強い潜在能力を示した。すべての評価データとフレームワークは研究促進のため公開されている。
English
Assessing student handwritten scratchwork is crucial for personalized educational feedback but presents unique challenges due to diverse handwriting, complex layouts, and varied problem-solving approaches. Existing educational NLP primarily focuses on textual responses and neglects the complexity and multimodality inherent in authentic handwritten scratchwork. Current multimodal large language models (MLLMs) excel at visual reasoning but typically adopt an "examinee perspective", prioritizing generating correct answers rather than diagnosing student errors. To bridge these gaps, we introduce ScratchMath, a novel benchmark specifically designed for explaining and classifying errors in authentic handwritten mathematics scratchwork. Our dataset comprises 1,720 mathematics samples from Chinese primary and middle school students, supporting two key tasks: Error Cause Explanation (ECE) and Error Cause Classification (ECC), with seven defined error types. The dataset is meticulously annotated through rigorous human-machine collaborative approaches involving multiple stages of expert labeling, review, and verification. We systematically evaluate 16 leading MLLMs on ScratchMath, revealing significant performance gaps relative to human experts, especially in visual recognition and logical reasoning. Proprietary models notably outperform open-source models, with large reasoning models showing strong potential for error explanation. All evaluation data and frameworks are publicly available to facilitate further research.