VisJudge-Bench: Avaliação da Estética e da Qualidade de Visualizações
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
Autores: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Resumo
A visualização, uma forma de imagética específica de domínio mas amplamente utilizada, é um método eficaz para transformar conjuntos de dados complexos em insights intuitivos, e seu valor depende da representação fiel dos dados, da comunicação clara e do design estético. No entanto, avaliar a qualidade da visualização é desafiador: diferentemente das imagens naturais, exige julgamento simultâneo em precisão de codificação de dados, expressividade informacional e estética visual. Embora os modelos multimodais de linguagem de grande escala (MLLMs) tenham demonstrado desempenho promissor na avaliação estética de imagens naturais, não existe um benchmark sistemático para medir suas capacidades na avaliação de visualizações. Para resolver isso, propomos o VisJudge-Bench, o primeiro benchmark abrangente para avaliar o desempenho de MLLMs na análise da estética e qualidade de visualizações. Ele contém 3.090 amostras anotadas por especialistas de cenários do mundo real, abrangendo visualizações únicas, múltiplas visualizações e painéis em 32 tipos de gráficos. Testes sistemáticos neste benchmark revelam que mesmo os MLLMs mais avançados (como o GPT-5) ainda exibem lacunas significativas em comparação com especialistas humanos no julgamento, com um Erro Absoluto Médio (MAE) de 0,551 e uma correlação com as avaliações humanas de apenas 0,429. Para resolver esta questão, propomos o VisJudge, um modelo especificamente projetado para avaliação de estética e qualidade de visualização. Resultados experimentais demonstram que o VisJudge reduz significativamente a lacuna com o julgamento humano, diminuindo o MAE para 0,442 (uma redução de 19,8%) e aumentando a consistência com especialistas humanos para 0,681 (uma melhoria de 58,7%) em comparação com o GPT-5. O benchmark está disponível em https://github.com/HKUSTDial/VisJudgeBench.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.