SketchJudge: Un Punto de Referencia Diagnóstico para Evaluar Diagramas Dibujados a Mano con Modelos de Lenguaje Grandes Multimodales
SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
January 11, 2026
Autores: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang
cs.AI
Resumen
Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) han logrado un progreso notable en comprensión visual, a menudo presentan dificultades al enfrentarse a la naturaleza no estructurada y ambigua de los bocetos generados por humanos. Esta limitación es particularmente pronunciada en la tarea poco explorada de la calificación visual, donde los modelos no solo deben resolver un problema, sino también diagnosticar errores en diagramas dibujados a mano. Dichas capacidades de diagnóstico dependen de un razonamiento estructural, semántico y metacognitivo complejo. Para cerrar esta brecha, presentamos SketchJudge, un nuevo punto de referencia diseñado específicamente para evaluar a los MLLMs como calificadores de diagramas STEM dibujados a mano. SketchJudge abarca 1,015 respuestas de estudiantes dibujadas a mano en cuatro dominios: geometría, física, gráficos y diagramas de flujo, presentando diversas variaciones estilísticas y tipos de errores distintos. Las evaluaciones en SketchJudge demuestran que incluso los MLLMs más avanzados están significativamente por detrás de los humanos, validando la efectividad del punto de referencia para exponer la fragilidad de la alineación visión-lenguaje actual en contextos simbólicos y ruidosos. Todos los datos, código y scripts de evaluación están disponibles públicamente en https://github.com/yuhangsu82/SketchJudge.
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.