ChatPaper.aiChatPaper

SketchJudge: 멀티모달 대규모 언어 모델을 활용한 손그림 다이어그램 평가 진단 벤치마크

SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models

January 11, 2026
저자: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)은 시각적 이해 분야에서 놀라운 발전을 이루었지만, 인간이 생성한 스케치의 비정형적이고 모호한 특성 앞에서는 종종 어려움을 겪습니다. 이러한 한계는 모델이 단순히 문제를 해결하는 것을 넘어 손으로 그린 다이어그램의 오류를 진단해야 하는 시각적 채점이라는 충분히 연구되지 않은 과업에서 특히 두드러집니다. 이러한 진단 능력은 복잡한 구조적, 의미론적, 메타인지적 추론에 의존합니다. 이러한 격차를 해소하기 위해 우리는 손으로 그린 STEM 다이어그램 채점자로서 MLLM을 평가하기 위한 새로운 벤치마크인 SketchJudge를 소개합니다. SketchJudge는 기하학, 물리학, 차트, 플로차트 등 4개 영역에 걸친 1,015개의 손으로 그린 학생 응답을 포함하며, 다양한 스타일적 변형과 뚜렷한 오류 유형을 특징으로 합니다. SketchJudge에 대한 평가 결과, 최첨단 MLLM조차도 인간에 비해 크게 뒤처지는 것으로 나타나 기호 및 노이즈가 있는 환경에서 현재 시각-언어 정렬의 취약성을 드러내는 벤치마크의 효과성을 입증했습니다. 모든 데이터, 코드 및 평가 스크립트는 https://github.com/yuhangsu82/SketchJudge에서 공개적으로 이용 가능합니다.
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.
PDF22January 31, 2026