VisJudge-Bench : Évaluation de l'Esthétique et de la Qualité des Visualisations
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
papers.authors: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
papers.abstract
La visualisation, une forme d'imagerie spécifique au domaine mais largement utilisée, constitue un moyen efficace de transformer des ensembles de données complexes en informations intuitives. Sa valeur dépend de la fidélité de la représentation des données, de la clarté de leur communication et de la qualité esthétique de leur conception. Cependant, évaluer la qualité d'une visualisation reste difficile : contrairement aux images naturelles, cela nécessite un jugement simultané sur la précision de l'encodage des données, l'expressivité de l'information et l'esthétique visuelle. Bien que les modèles de langage multimodaux (MLLM) aient montré des performances prometteuses dans l'évaluation esthétique des images naturelles, aucun benchmark systématique n'existe pour mesurer leurs capacités dans l'évaluation des visualisations. Pour remédier à cela, nous proposons VisJudge-Bench, le premier benchmark complet pour évaluer les performances des MLLM dans l'évaluation de l'esthétique et de la qualité des visualisations. Il contient 3 090 échantillons annotés par des experts provenant de scénarios réels, couvrant des visualisations uniques, multiples et des tableaux de bord incluant 32 types de graphiques. Des tests systématiques sur ce benchmark révèlent que même les MLLM les plus avancés (comme GPT-5) présentent encore des écarts significatifs par rapport aux experts humains, avec une Erreur Absolue Moyenne (MAE) de 0,551 et une corrélation avec les évaluations humaines de seulement 0,429. Pour résoudre ce problème, nous proposons VisJudge, un modèle spécialement conçu pour l'évaluation de l'esthétique et de la qualité des visualisations. Les résultats expérimentaux démontrent que VisJudge réduit significativement l'écart avec le jugement humain, abaissant la MAE à 0,442 (une réduction de 19,8 %) et augmentant la cohérence avec les experts humains à 0,681 (une amélioration de 58,7 %) par rapport à GPT-5. Le benchmark est disponible à l'adresse https://github.com/HKUSTDial/VisJudgeBench.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.