ChatPaper.aiChatPaper

SketchJudge: 手描き図表の評価におけるマルチモーダル大規模言語モデルの診断ベンチマーク

SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

January 11, 2026
著者: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は視覚的理解において顕著な進歩を遂げているが、人間が描くスケッチの非構造的で曖昧な性質に対処する際には困難を示すことが多い。この限界は、モデルが単に問題を解くだけでなく手描き図表の誤りを診断すべき「視覚的採点」という未開拓の課題において特に顕著である。このような診断能力は、複雑な構造的・意味的・メタ認知的推論に依存する。本論文はこの隔たりを埋めるため、手描きSTEM図表の採点者としてのMLLM評価に特化した新規ベンチマーク「SketchJudge」を提案する。SketchJudgeは幾何学、物理学、チャート、フローチャートの4領域にわたる1,015件の手描き学生解答を包含し、多様なスタイルの変種と明確な誤りタイプを特徴とする。SketchJudgeによる評価では、先進的なMLLMでさえ人間の性能に大きく遅れをとることが実証され、記号的でノイズの多い文脈における現行の視覚言語連携の脆弱性を暴く本ベンチマークの有効性が立証された。すべてのデータ、コード、評価スクリプトはhttps://github.com/yuhangsu82/SketchJudge で公開されている。
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.
PDF22January 31, 2026