VisJudge-Bench: 시각화의 미적 판단 및 품질 평가
VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
October 25, 2025
저자: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
초록
시각화는 특정 도메인에 국한되지만 널리 사용되는 이미지 형태로, 복잡한 데이터셋을 직관적인 통찰로 전환하는 효과적인 방법이며, 그 가치는 데이터가 충실하게 표현되고 명확하게 전달되며 미적으로 설계되었는지에 따라 달라집니다. 그러나 시각화 품질을 평가하는 것은 어려운 과제입니다. 자연 이미지와 달리 데이터 인코딩 정확성, 정보 전달력, 시각적 미학에 걸친 동시적 판단이 필요하기 때문입니다. 멀티모달 대규모 언어 모델(MLLM)이 자연 이미지의 미학적 평가에서 유망한 성능을 보였음에도 불구하고, 시각화 평가 능력을 측정하기 위한 체계적인 벤치마크는 존재하지 않았습니다. 이를 해결하기 위해 우리는 시각화 미학 및 품질 평가에서 MLLM의 성능을 평가하는 최초의 포괄적인 벤치마크인 VisJudge-Bench를 제안합니다. 이 벤치마크는 실제 시나리오에서 수집된 전문가 주석이 달린 3,090개의 샘플을 포함하며, 32가지 차트 유형에 걸친 단일 시각화, 다중 시각화, 대시보드를 다룹니다. 이 벤치마크에 대한 체계적인 테스트 결과, 가장先进的인 MLLM(예: GPT-5)조차도 판단에 있어 인간 전문가에 비해 상당한 격차를 보였으며, 평균 절대 오차(MAE)는 0.551, 인간 평가와의 상관관계는 0.429에 불과했습니다. 이 문제를 해결하기 위해 우리는 시각화 미학 및 품질 평가를 위해 특별히 설계된 모델인 VisJudge를 제안합니다. 실험 결과, VisJudge는 인간 판단과의 격차를 크게 좁혀, GPT-5 대비 MAE를 0.442로 감소(19.8% 개선)시키고 인간 전문가와의 일치도를 0.681로 증가(58.7% 개선)시킴을 입증했습니다. 벤치마크는 https://github.com/HKUSTDial/VisJudgeBench에서 이용 가능합니다.
English
Visualization, a domain-specific yet widely used form of imagery, is an
effective way to turn complex datasets into intuitive insights, and its value
depends on whether data are faithfully represented, clearly communicated, and
aesthetically designed. However, evaluating visualization quality is
challenging: unlike natural images, it requires simultaneous judgment across
data encoding accuracy, information expressiveness, and visual aesthetics.
Although multimodal large language models (MLLMs) have shown promising
performance in aesthetic assessment of natural images, no systematic benchmark
exists for measuring their capabilities in evaluating visualizations. To
address this, we propose VisJudge-Bench, the first comprehensive benchmark for
evaluating MLLMs' performance in assessing visualization aesthetics and
quality. It contains 3,090 expert-annotated samples from real-world scenarios,
covering single visualizations, multiple visualizations, and dashboards across
32 chart types. Systematic testing on this benchmark reveals that even the most
advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human
experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a
correlation with human ratings of only 0.429. To address this issue, we propose
VisJudge, a model specifically designed for visualization aesthetics and
quality assessment. Experimental results demonstrate that VisJudge
significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a
19.8% reduction) and increasing the consistency with human experts to 0.681 (a
58.7% improvement) compared to GPT-5. The benchmark is available at
https://github.com/HKUSTDial/VisJudgeBench.