VisJudge-Bench: Valutazione dell'Estetica e della Qualità delle Visualizzazioni
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
Autori: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Abstract
La visualizzazione, una forma di imagery specifica del dominio ma ampiamente utilizzata, rappresenta un metodo efficace per trasformare dataset complessi in insight intuitivi, e il suo valore dipende dalla fedele rappresentazione dei dati, dalla chiara comunicazione e dal design estetico. Tuttavia, valutare la qualità delle visualizzazioni è complesso: a differenza delle immagini naturali, richiede una valutazione simultanea dell'accuratezza nella codifica dei dati, dell'espressività informativa e dell'estetica visiva. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano mostrato prestazioni promettenti nella valutazione estetica delle immagini naturali, non esiste ancora un benchmark sistematico per misurare le loro capacità nella valutazione delle visualizzazioni. Per affrontare questa lacuna, proponiamo VisJudge-Bench, il primo benchmark completo per valutare le prestazioni degli MLLM nell'analisi dell'estetica e della qualità delle visualizzazioni. Esso contiene 3.090 campioni annotati da esperti provenienti da scenari reali, coprendo visualizzazioni singole, multiple e dashboard attraverso 32 tipi di grafici. Test sistematici su questo benchmark rivelano che anche gli MLLM più avanzati (come GPT-5) mostrano ancora divari significativi rispetto ai giudizi degli esperti umani, con un Errore Assoluto Medio (MAE) di 0,551 e una correlazione con le valutazioni umane di appena 0,429. Per affrontare questo problema, proponiamo VisJudge, un modello specificamente progettato per la valutazione dell'estetica e della qualità delle visualizzazioni. I risultati sperimentali dimostrano che VisJudge riduce significativamente il divario con il giudizio umano, abbassando il MAE a 0,442 (una riduzione del 19,8%) e aumentando la coerenza con gli esperti umani a 0,681 (un miglioramento del 58,7%) rispetto a GPT-5. Il benchmark è disponibile all'indirizzo https://github.com/HKUSTDial/VisJudgeBench.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.