ChatPaper.aiChatPaper

SketchJudge : Un Benchmark Diagnostique pour l'Évaluation de Diagrammes Dessinés à la Main avec des Modèles de Langage Multimodaux de Grande Taille

SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

January 11, 2026
papers.authors: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang
cs.AI

papers.abstract

Si les modèles de langage multimodaux (MLLM) ont réalisé des progrès remarquables dans la compréhension visuelle, ils éprouvent souvent des difficultés face à la nature non structurée et ambiguë des croquis générés par l'homme. Cette limitation est particulièrement prononcée dans la tâche encore peu explorée de l'évaluation visuelle, où les modèles ne doivent pas seulement résoudre un problème mais aussi diagnostiquer les erreurs dans les diagrammes dessinés à la main. De telles capacités de diagnostic dépendent d'un raisonnement structurel, sémantique et métacognitif complexe. Pour combler cette lacune, nous présentons SketchJudge, un nouveau benchmark conçu pour évaluer les MLLM en tant qu'évaluateurs de diagrammes STEM dessinés à la main. SketchJudge comprend 1 015 réponses d'étudiants dessinées à la main couvrant quatre domaines : la géométrie, la physique, les graphiques et les organigrammes, présentant des variations stylistiques diverses et des types d'erreurs distincts. Les évaluations sur SketchJudge démontrent que même les MLLM avancés restent significativement en retard par rapport aux humains, validant l'efficacité du benchmark pour révéler la fragilité de l'alignement vision-langage actuel dans des contextes symboliques et bruités. Toutes les données, le code et les scripts d'évaluation sont disponibles publiquement à l'adresse https://github.com/yuhangsu82/SketchJudge.
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.
PDF22January 31, 2026