VisJudge-Bench: Ästhetik- und Qualitätsbewertung von Visualisierungen
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
papers.authors: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
papers.abstract
Visualisierung, eine domänenspezifische aber weit verbreitete Form der Bilddarstellung, ist eine effektive Methode, um komplexe Datensätze in intuitive Erkenntnisse zu verwandeln. Ihr Wert hängt davon ab, ob Daten korrekt dargestellt, klar kommuniziert und ästhetisch gestaltet werden. Die Bewertung der Visualisierungsqualität ist jedoch herausfordernd: Im Gegensatz zu natürlichen Bildern erfordert sie gleichzeitige Beurteilungen hinsichtlich der Genauigkeit der Datenkodierung, der Informationsvermittlung und der visuellen Ästhetik. Obwohl multimodale große Sprachmodelle (MLLMs) vielversprechende Leistungen bei der ästhetischen Bewertung natürlicher Bilder gezeigt haben, existiert kein systematischer Benchmark zur Messung ihrer Fähigkeiten bei der Evaluierung von Visualisierungen. Um diese Lücke zu schließen, schlagen wir VisJudge-Bench vor, den ersten umfassenden Benchmark zur Bewertung der Leistung von MLLMs bei der Beurteilung von Visualisierungsästhetik und -qualität. Er enthält 3.090 von Experten annotierte Beispiele aus realen Szenarien, die Einzelvisualisierungen, multiple Visualisierungen und Dashboards über 32 Diagrammtypen abdecken. Systematische Tests mit diesem Benchmark zeigen, dass selbst die fortschrittlichsten MLLMs (wie GPT-5) im Vergleich zu menschlichen Experten bei der Beurteilung noch erhebliche Lücken aufweisen, mit einem mittleren absoluten Fehler (MAE) von 0,551 und einer Korrelation mit menschlichen Bewertungen von nur 0,429. Um dieses Problem zu adressieren, schlagen wir VisJudge vor, ein speziell für die Bewertung von Visualisierungsästhetik und -qualität entwickeltes Modell. Experimentelle Ergebnisse demonstrieren, dass VisJudge die Lücke zur menschlichen Beurteilung signifikant verringert, den MAE auf 0,442 reduziert (eine Verringerung um 19,8 %) und die Übereinstimmung mit menschlichen Experten auf 0,681 erhöht (eine Verbesserung um 58,7 %) im Vergleich zu GPT-5. Der Benchmark ist verfügbar unter https://github.com/HKUSTDial/VisJudgeBench.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.