SketchJudge: Um Benchmark Diagnóstico para a Classificação de Diagramas Desenhados à Mão com Modelos de Linguagem Multimodais de Grande Escala

Resumo

Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham alcançado progressos notáveis na compreensão visual, eles frequentemente enfrentam dificuldades diante da natureza não estruturada e ambígua dos desenhos à mão livre gerados por humanos. Essa limitação é particularmente pronunciada na tarefa pouco explorada da avaliação visual, na qual os modelos não devem apenas resolver um problema, mas também diagnosticar erros em diagramas desenhados à mão. Tais capacidades de diagnóstico dependem de um raciocínio estrutural, semântico e metacognitivo complexo. Para preencher essa lacuna, apresentamos o SketchJudge, um novo benchmark específico para avaliar MLLMs como avaliadores de diagramas STEM desenhados à mão. O SketchJudge abrange 1.015 respostas de estudantes desenhadas à mão em quatro domínios: geometria, física, gráficos e fluxogramas, apresentando variações estilísticas diversificadas e tipos distintos de erros. As avaliações no SketchJudge demonstram que mesmo MLLMs avançados ficam significativamente atrás dos humanos, validando a eficácia do benchmark em expor a fragilidade do alinhamento visão-linguagem atual em contextos simbólicos e ruidosos. Todos os dados, códigos e scripts de avaliação estão publicamente disponíveis em https://github.com/yuhangsu82/SketchJudge.

English

While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.

SketchJudge: Um Benchmark Diagnóstico para a Classificação de Diagramas Desenhados à Mão com Modelos de Linguagem Multimodais de Grande Escala

SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

Resumo

Support