SketchJudge: un benchmark diagnostico per la valutazione di diagrammi disegnati a mano con modelli linguistici multimodali di grandi dimensioni

Abstract

Sebbene i Modelli Linguistici Multimodali di Grande Dimensioni (MLLM) abbiano conseguito progressi notevoli nella comprensione visiva, spesso incontrano difficoltà di fronte alla natura non strutturata e ambigua degli schizzi generati dall'uomo. Questa limitazione è particolarmente evidente nel compito poco esplorato della valutazione visiva, dove i modelli non dovrebbero solo risolvere un problema, ma anche diagnosticare gli errori nei diagrammi disegnati a mano. Tali capacità diagnostiche dipendono da ragionamenti complessi di tipo strutturale, semantico e metacognitivo. Per colmare questa lacuna, introduciamo SketchJudge, un nuovo benchmark specificamente progettato per valutare gli MLLM nella valutazione di diagrammi STEM disegnati a mano. SketchJudge comprende 1.015 risposte di studenti disegnate a mano in quattro domini: geometria, fisica, diagrammi e flowchart, caratterizzate da variazioni stilistiche diversificate e tipologie di errore distinte. Le valutazioni su SketchJudge dimostrano che anche gli MLLM più avanzati rimangono significativamente indietro rispetto agli esseri umani, convalidando l'efficacia del benchmark nell'evidenziare la fragilità dell'allineamento visivo-linguistico attuale in contesti simbolici e rumorosi. Tutti i dati, il codice e gli script di valutazione sono pubblicamente disponibili all'indirizzo https://github.com/yuhangsu82/SketchJudge.

English

While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.

SketchJudge: un benchmark diagnostico per la valutazione di diagrammi disegnati a mano con modelli linguistici multimodali di grandi dimensioni

SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

Abstract

Support