VisJudge-Bench: Evaluación de la Estética y la Calidad de las Visualizaciones
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
Autores: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Resumen
La visualización, una forma de imaginería específica del dominio pero ampliamente utilizada, es un método efectivo para convertir conjuntos de datos complejos en percepciones intuitivas, y su valor depende de si los datos están representados fielmente, comunicados claramente y diseñados estéticamente. Sin embargo, evaluar la calidad de la visualización es un desafío: a diferencia de las imágenes naturales, requiere una valoración simultánea de la precisión en la codificación de datos, la expresividad de la información y la estética visual. Aunque los modelos de lenguaje multimodal (MLLM) han mostrado un rendimiento prometedor en la evaluación estética de imágenes naturales, no existe un punto de referencia sistemático para medir sus capacidades en la evaluación de visualizaciones. Para abordar esto, proponemos VisJudge-Bench, el primer benchmark integral para evaluar el rendimiento de los MLLM en la valoración de la estética y calidad de visualizaciones. Contiene 3.090 muestras anotadas por expertos de escenarios del mundo real, cubriendo visualizaciones individuales, múltiples visualizaciones y paneles de control a través de 32 tipos de gráficos. Las pruebas sistemáticas en este benchmark revelan que incluso los MLLM más avanzados (como GPT-5) aún muestran brechas significativas comparados con expertos humanos en el criterio, con un Error Absoluto Medio (MAE) de 0.551 y una correlación con las valoraciones humanas de solo 0.429. Para abordar este problema, proponemos VisJudge, un modelo diseñado específicamente para la evaluación de la estética y calidad de visualizaciones. Los resultados experimentales demuestran que VisJudge reduce significativamente la brecha con el criterio humano, disminuyendo el MAE a 0.442 (una reducción del 19.8%) e incrementando la consistencia con expertos humanos a 0.681 (una mejora del 58.7%) comparado con GPT-5. El benchmark está disponible en https://github.com/HKUSTDial/VisJudgeBench.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.