SketchJudge: Диагностический эталонный тест для оценки рукописных диаграмм с помощью мультимодальных больших языковых моделей
SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
January 11, 2026
Авторы: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang
cs.AI
Аннотация
Хотя мультимодальные большие языковые модели (МБЯМ) достигли значительного прогресса в области визуального понимания, они часто испытывают трудности при столкновении с неструктурированной и неоднозначной природой созданных человеком эскизов. Это ограничение особенно заметно в малоизученной задаче визуального оценивания, где модели должны не только решить задачу, но и диагностировать ошибки в рукописных диаграммах. Такие диагностические возможности зависят от сложного структурного, семантического и метакогнитивного мышления. Чтобы устранить этот пробел, мы представляем SketchJudge — новый эталонный набор, предназначенный для оценки МБЯМ в качестве оценщиков рукописных STEM-диаграмм. SketchJudge включает 1015 рукописных ответов студентов по четырем областям: геометрия, физика, схемы и блок-схемы, с разнообразными стилистическими вариациями и distinct типами ошибок. Оценки на SketchJudge показывают, что даже передовые МБЯМ значительно отстают от человека, что подтверждает эффективность эталона в выявлении уязвимости современного согласования визуальных и языковых моделей в символических и зашумленных контекстах. Все данные, код и скрипты для оценки находятся в открытом доступе по адресу https://github.com/yuhangsu82/SketchJudge.
English
While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.