Os MLLMs Podem Ler a Mente dos Alunos? Desvendando a Análise de Erros Multimodal em Matemática Manuscrita
Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math
March 26, 2026
Autores: Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen
cs.AI
Resumo
A avaliação de rascunhos manuscritos de estudantes é crucial para o feedback educacional personalizado, mas apresenta desafios únicos devido à diversidade de caligrafia, layouts complexos e abordagens variadas de resolução de problemas. A PNL educacional existente foca-se principalmente em respostas textuais e negligencia a complexidade e multimodalidade inerentes aos rascunhos manuscritos autênticos. Os atuais modelos de linguagem multimodal (MLLMs) destacam-se no raciocínio visual, mas geralmente adotam uma "perspectiva de examinando", priorizando a geração de respostas corretas em vez de diagnosticar erros dos estudantes. Para preencher estas lacunas, introduzimos o ScratchMath, um benchmark inovador especificamente concebido para explicar e classificar erros em rascunhos matemáticos manuscritos autênticos. O nosso conjunto de dados compreende 1.720 amostras matemáticas de estudantes do ensino básico e secundário chinês, suportando duas tarefas principais: Explicação da Causa do Erro (ECE) e Classificação da Causa do Erro (ECC), com sete tipos de erro definidos. O conjunto de dados é meticulosamente anotado através de rigorosas abordagens colaborativas homem-máquina envolvendo múltiplas etapas de etiquetagem especializada, revisão e verificação. Avaliamos sistematicamente 16 MLLMs líderes no ScratchMath, revelando lacunas significativas de desempenho em relação a especialistas humanos, particularmente no reconhecimento visual e raciocínio lógico. Modelos proprietários superam notavelmente os modelos de código aberto, com grandes modelos de raciocínio demonstrando forte potencial para explicação de erros. Todos os dados e estruturas de avaliação estão publicamente disponíveis para facilitar investigações futuras.
English
Assessing student handwritten scratchwork is crucial for personalized educational feedback but presents unique challenges due to diverse handwriting, complex layouts, and varied problem-solving approaches. Existing educational NLP primarily focuses on textual responses and neglects the complexity and multimodality inherent in authentic handwritten scratchwork. Current multimodal large language models (MLLMs) excel at visual reasoning but typically adopt an "examinee perspective", prioritizing generating correct answers rather than diagnosing student errors. To bridge these gaps, we introduce ScratchMath, a novel benchmark specifically designed for explaining and classifying errors in authentic handwritten mathematics scratchwork. Our dataset comprises 1,720 mathematics samples from Chinese primary and middle school students, supporting two key tasks: Error Cause Explanation (ECE) and Error Cause Classification (ECC), with seven defined error types. The dataset is meticulously annotated through rigorous human-machine collaborative approaches involving multiple stages of expert labeling, review, and verification. We systematically evaluate 16 leading MLLMs on ScratchMath, revealing significant performance gaps relative to human experts, especially in visual recognition and logical reasoning. Proprietary models notably outperform open-source models, with large reasoning models showing strong potential for error explanation. All evaluation data and frameworks are publicly available to facilitate further research.