ChatPaper.aiChatPaper

VisJudge-Bench:ビジュアライゼーションの美的評価と品質評価

VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations

October 25, 2025
著者: Yupeng Xie, Zhiyang Zhang, Yifan Wu, Sirong Lu, Jiayi Zhang, Zhaoyang Yu, Jinlin Wang, Sirui Hong, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI

要旨

可視化は、ドメイン固有でありながら広く用いられる画像表現形式であり、複雑なデータセットを直感的な知見へと変換する効果的な手段である。その価値は、データが忠実に表現され、明確に伝達され、美的に設計されているかどうかに依存する。しかしながら、可視化の品質評価は困難が伴う。自然画像とは異なり、データ符号化の正確性、情報表現力、視覚的美観という複数の次元にわたる同時判断が要求されるためである。マルチモーダル大規模言語モデル(MLLM)は自然画像の美的評価において有望な性能を示しているものの、可視化評価における能力を測定する体系的なベンチマークは存在しなかった。この問題に対処するため、我々は可視化の美的品質評価におけるMLLMの性能を評価する初の包括的ベンチマークであるVisJudge-Benchを提案する。これは実世界シナリオから収集した専門家注釈付きの3,090サンプルを含み、32種類のチャートタイプにわたる単一可視化、複数可視化、ダッシュボードを網羅する。本ベンチマークを用いた体系的なテストにより、GPT-5のような最先端MLLMでさえ、平均絶対誤差(MAE)0.551、人間の評価との相関0.429と、専門家の判断との間に顕著な隔たりがあることが明らかとなった。この課題解決のため、我々は可視化の美的品質評価に特化して設計されたVisJudgeモデルを提案する。実験結果では、VisJudgeが人間の判断との隔たりを大幅に縮め、GPT-5と比較してMAEを0.442(19.8%改善)、専門家との一致度を0.681(58.7%向上)させることを実証した。ベンチマークはhttps://github.com/HKUSTDial/VisJudgeBench で公開されている。
English
Visualization, a domain-specific yet widely used form of imagery, is an effective way to turn complex datasets into intuitive insights, and its value depends on whether data are faithfully represented, clearly communicated, and aesthetically designed. However, evaluating visualization quality is challenging: unlike natural images, it requires simultaneous judgment across data encoding accuracy, information expressiveness, and visual aesthetics. Although multimodal large language models (MLLMs) have shown promising performance in aesthetic assessment of natural images, no systematic benchmark exists for measuring their capabilities in evaluating visualizations. To address this, we propose VisJudge-Bench, the first comprehensive benchmark for evaluating MLLMs' performance in assessing visualization aesthetics and quality. It contains 3,090 expert-annotated samples from real-world scenarios, covering single visualizations, multiple visualizations, and dashboards across 32 chart types. Systematic testing on this benchmark reveals that even the most advanced MLLMs (such as GPT-5) still exhibit significant gaps compared to human experts in judgment, with a Mean Absolute Error (MAE) of 0.551 and a correlation with human ratings of only 0.429. To address this issue, we propose VisJudge, a model specifically designed for visualization aesthetics and quality assessment. Experimental results demonstrate that VisJudge significantly narrows the gap with human judgment, reducing the MAE to 0.442 (a 19.8% reduction) and increasing the consistency with human experts to 0.681 (a 58.7% improvement) compared to GPT-5. The benchmark is available at https://github.com/HKUSTDial/VisJudgeBench.
PDF141December 1, 2025