SketchJudge: Eine diagnostische Benchmark zur Bewertung handgezeichneter Diagramme mit multimodalen großen Sprachmodellen
SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
January 11, 2026
papers.authors: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang
cs.AI
papers.abstract
Während multimodale große Sprachmodelle (MLLMs) bemerkenswerte Fortschritte im visuellen Verständnis erzielt haben, stoßen sie oft an ihre Grenzen, wenn sie mit der unstrukturierten und mehrdeutigen Natur von handgezeichneten Skizzen konfrontiert werden. Diese Einschränkung zeigt sich besonders bei der bisher wenig erforschten Aufgabe des visuellen Bewertens, bei der Modelle nicht nur ein Problem lösen, sondern auch Fehler in handgezeichneten Diagrammen diagnostizieren sollen. Solche diagnostischen Fähigkeiten hängen von komplexem strukturellem, semantischem und metakognitivem Denken ab. Um diese Lücke zu schließen, stellen wir SketchJudge vor, einen neuartigen Benchmark, der speziell für die Bewertung von MLLMs als Prüfer handgezeichneter MINT-Diagramme entwickelt wurde. SketchJudge umfasst 1.015 handgezeichnete Schülerantworten aus vier Bereichen: Geometrie, Physik, Diagramme und Flussdiagramme, mit unterschiedlichen stilistischen Variationen und eindeutigen Fehlertypen. Evaluierungen auf SketchJudge zeigen, dass selbst fortschrittliche MLLMs deutlich hinter menschlichen Leistungen zurückbleiben, was die Wirksamkeit des Benchmarks bei der Aufdeckung der Fragilität aktueller Vision-Sprache-Abgleichung in symbolischen und verrauschten Kontexten bestätigt. Alle Daten, Codes und Auswertungsskripte sind öffentlich unter https://github.com/yuhangsu82/SketchJudge verfügbar.
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.