I MLLM Possono Leggere la Mente degli Studenti? Un'Analisi degli Errori Multimodale nella Matematica Scritta a Mano
Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math
March 26, 2026
Autori: Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen
cs.AI
Abstract
La valutazione degli appunti scritti a mano degli studenti è fondamentale per un feedback educativo personalizzato, ma presenta sfide uniche a causa della varietà della grafia, dei layout complessi e degli approcci risolutivi eterogenei. L'NLP educativo esistente si concentra principalmente sulle risposte testuali e trascura la complessità e multimodalità intrinseche degli appunti manoscritti autentici. Gli attuali modelli linguistici multimodali (MLLM) eccellono nel ragionamento visivo, ma tipicamente adottano una "prospettiva dell'esaminando", privilegiando la generazione di risposte corrette piuttosto che la diagnosi degli errori degli studenti. Per colmare queste lacune, introduciamo ScratchMath, un nuovo benchmark specificamente progettato per spiegare e classificare gli errori negli appunti di matematica scritti a mano in contesti reali. Il nostro dataset comprende 1.720 campioni matematici di studenti cinesi di scuola primaria e secondaria, e supporta due compiti chiave: Spiegazione della Causa dell'Errore (ECE) e Classificazione della Causa dell'Errore (ECC), con sette tipi di errore definiti. Il dataset è meticolosamente annotato attraverso rigorosi approcci collaborativi uomo-macchina che coinvolgono più fasi di etichettatura, revisione e verifica da parte di esperti. Valutiamo sistematicamente 16 MLLM leader su ScratchMath, rivelando divari prestazionali significativi rispetto agli esperti umani, specialmente nel riconoscimento visivo e nel ragionamento logico. I modelli proprietari superano notevolmente quelli open-source, con i modelli di ragionamento di grandi dimensioni che mostrano un forte potenziale per la spiegazione degli errori. Tutti i dati e i framework di valutazione sono pubblicamente disponibili per facilitare ulteriori ricerche.
English
Assessing student handwritten scratchwork is crucial for personalized educational feedback but presents unique challenges due to diverse handwriting, complex layouts, and varied problem-solving approaches. Existing educational NLP primarily focuses on textual responses and neglects the complexity and multimodality inherent in authentic handwritten scratchwork. Current multimodal large language models (MLLMs) excel at visual reasoning but typically adopt an "examinee perspective", prioritizing generating correct answers rather than diagnosing student errors. To bridge these gaps, we introduce ScratchMath, a novel benchmark specifically designed for explaining and classifying errors in authentic handwritten mathematics scratchwork. Our dataset comprises 1,720 mathematics samples from Chinese primary and middle school students, supporting two key tasks: Error Cause Explanation (ECE) and Error Cause Classification (ECC), with seven defined error types. The dataset is meticulously annotated through rigorous human-machine collaborative approaches involving multiple stages of expert labeling, review, and verification. We systematically evaluate 16 leading MLLMs on ScratchMath, revealing significant performance gaps relative to human experts, especially in visual recognition and logical reasoning. Proprietary models notably outperform open-source models, with large reasoning models showing strong potential for error explanation. All evaluation data and frameworks are publicly available to facilitate further research.