SketchJudge: Een Diagnostische Benchmark voor het Beoordelen van Handgetekende Diagrammen met Multimodale Grote Taalmodellen
SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
January 11, 2026
Auteurs: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang
cs.AI
Samenvatting
Hoewel Multimodale Large Language Models (MLLM's) aanzienlijke vooruitgang hebben geboekt in visueel begrip, hebben ze vaak moeite met de ongestructureerde en ambigue aard van door mensen gemaakte schetsen. Deze beperking is vooral merkbaar bij de onderbelichte taak van visuele beoordeling, waarbij modellen niet alleen een probleem moeten oplossen, maar ook fouten moeten diagnosticeren in handgetekende diagrammen. Dergelijke diagnostische capaciteiten zijn afhankelijk van complexe structurele, semantische en metacognitieve redeneervaardigheden. Om deze kloof te overbruggen, introduceren we SketchJudge, een nieuwe benchmark die is toegesneden op het evalueren van MLLM's als beoordelaars van handgetekende STEM-diagrammen. SketchJudge omvat 1.015 handgetekende studentenantwoorden verspreid over vier domeinen: geometrie, natuurkunde, grafieken en stroomdiagrammen, met diverse stilistische variaties en duidelijke fouttypes. Evaluaties op SketchJudge tonen aan dat zelfs geavanceerde MLLM's aanzienlijk achterblijven bij mensen, wat de effectiviteit van de benchmark bevestigt in het blootleggen van de kwetsbaarheid van de huidige visie-taala
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.