Q-Eval-100K: テキストから視覚コンテンツの品質と整合性レベルの評価
Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
March 4, 2025
著者: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI
要旨
テキストから視覚コンテンツを評価する際には、視覚的品質と整合性という2つの重要な側面が鍵となります。これらを評価するための客観的モデルの開発は大きく進展していますが、その性能は人間によるアノテーションの規模と品質に大きく依存します。スケーリング法則によれば、人間によるラベル付けのインスタンス数を増やすことで、評価モデルの性能を予測可能なパターンで向上させることができます。そこで本研究では、テキストから視覚コンテンツの視覚的品質と整合性レベルを評価するための包括的なデータセット(Q-EVAL-100K)を提案します。このデータセットは、前述の2つの側面に関する人間による平均意見スコア(MOS)の最大規模のコレクションを特徴としています。Q-EVAL-100Kデータセットは、テキストから画像およびテキストから動画のモデルを網羅し、100Kインスタンス(60K画像と40K動画)の視覚的品質と整合性に特化した960Kの人間によるアノテーションを含んでいます。このデータセットをコンテキストプロンプトと共に活用し、長文プロンプトの整合性処理に特別な改良を加えた視覚的品質と整合性の両方を評価可能な統一モデル、Q-Eval-Scoreを提案します。実験結果は、提案されたQ-Eval-Scoreが視覚的品質と整合性の両方で優れた性能を達成し、他のベンチマークに対しても強い汎化能力を持つことを示しています。これらの発見は、Q-EVAL-100Kデータセットの重要な価値を強調しています。データとコードはhttps://github.com/zzc-1998/Q-Evalで公開予定です。
English
Evaluating text-to-vision content hinges on two crucial aspects: visual
quality and alignment. While significant progress has been made in developing
objective models to assess these dimensions, the performance of such models
heavily relies on the scale and quality of human annotations. According to
Scaling Law, increasing the number of human-labeled instances follows a
predictable pattern that enhances the performance of evaluation models.
Therefore, we introduce a comprehensive dataset designed to Evaluate Visual
quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring
the largest collection of human-labeled Mean Opinion Scores (MOS) for the
mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image
and text-to-video models, with 960K human annotations specifically focused on
visual quality and alignment for 100K instances (60K images and 40K videos).
Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified
model capable of evaluating both visual quality and alignment with special
improvements for handling long-text prompt alignment. Experimental results
indicate that the proposed Q-Eval-Score achieves superior performance on both
visual quality and alignment, with strong generalization capabilities across
other benchmarks. These findings highlight the significant value of the
Q-EVAL-100K dataset. Data and codes will be available at
https://github.com/zzc-1998/Q-Eval.Summary
AI-Generated Summary