VisJudge-Bench: Оценка эстетики и качества визуализаций
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
Авторы: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Аннотация
Визуализация, как предметно-ориентированная, но широко используемая форма представления данных, является эффективным способом преобразования сложных наборов данных в интуитивно понятные выводы. Ее ценность определяется тем, насколько точно данные отображены, ясно переданы и эстетически оформлены. Однако оценивание качества визуализации представляет сложную задачу: в отличие от натуральных изображений, оно требует одновременной оценки точности кодирования данных, информационной выразительности и визуальной эстетики. Хотя мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие результаты в эстетической оценке натуральных изображений, систематические бенчмарки для измерения их способностей в оценке визуализаций отсутствуют. Для решения этой проблемы мы представляем VisJudge-Bench — первый комплексный бенчмарк для оценки возможностей MLLM в анализе эстетики и качества визуализаций. Он содержит 3090 экспертно размеченных образцов из реальных сценариев, охватывающих одиночные визуализации, множественные визуализации и дашборды 32 типов графиков. Систематическое тестирование на этом бенчмарке показывает, что даже самые передовые MLLM (такие как GPT-5) все еще демонстрируют значительный разрыв с экспертами-людьми в суждениях, со средней абсолютной ошибкой (MAE) 0.551 и корреляцией с человеческими оценками всего 0.429. Для решения этой проблемы мы предлагаем VisJudge — модель, специально разработанную для оценки эстетики и качества визуализаций. Результаты экспериментов демонстрируют, что VisJudge существенно сокращает разрыв с человеческими оценками, снижая MAE до 0.442 (улучшение на 19.8%) и повышая согласованность с экспертами до 0.681 (улучшение на 58.7%) по сравнению с GPT-5. Бенчмарк доступен по адресу: https://github.com/HKUSTDial/VisJudgeBench.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.