VisJudge-Bench: Beoordeling van de Esthetiek en Kwaliteit van Visualisaties
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
Auteurs: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Samenvatting
Visualisatie, een domeinspecifieke maar veelgebruikte vorm van beeldvorming, is een effectieve manier om complexe datasets om te zetten in intuïtieve inzichten. De waarde ervan hangt af van of gegevens getrouw worden weergegeven, duidelijk worden gecommuniceerd en esthetisch zijn ontworpen. Het evalueren van visualisatiekwaliteit is echter uitdagend: in tegenstelling tot natuurlijke beelden vereist het een gelijktijdige beoordeling van nauwkeurigheid in gegevenscodering, informatie-expressiviteit en visuele esthetiek. Hoewel multimodale grote taalmodellen (MLLM's) veelbelovende prestaties hebben getoond in esthetische beoordeling van natuurlijke beelden, bestaat er geen systematische benchmark voor het meten van hun capaciteiten bij het evalueren van visualisaties. Om dit aan te pakken, stellen we VisJudge-Bench voor, de eerste uitgebreide benchmark voor het evalueren van MLLM-prestaties in het beoordelen van visualisatie-esthetiek en -kwaliteit. Deze bevat 3.090 expertgeannoteerde steekproeven uit realistische scenario's, die enkele visualisaties, meerdere visualisaties en dashboards dekken over 32 grafiektypen. Systematische tests op deze benchmark tonen aan dat zelfs de meest geavanceerde MLLM's (zoals GPT-5) nog steeds aanzienlijke tekortkomingen vertonen in vergelijking met menselijke experts in beoordeling, met een gemiddelde absolute fout (MAE) van 0.551 en een correlatie met menselijke beoordelingen van slechts 0.429. Om dit probleem aan te pakken, stellen we VisJudge voor, een model specifiek ontworpen voor esthetische en kwalitatieve beoordeling van visualisaties. Experimentele resultaten tonen aan dat VisJudge de kloof met menselijke beoordeling significant verkleint, waarbij de MAE wordt gereduceerd tot 0.442 (een vermindering van 19.8%) en de consistentie met menselijke experts wordt verhoogd tot 0.681 (een verbetering van 58.7%) vergeleken met GPT-5. De benchmark is beschikbaar op https://github.com/HKUSTDial/VisJudgeBench.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.