Q-Eval-100K: 텍스트-투-비전 콘텐츠의 시각적 품질과 정렬 수준 평가
Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
March 4, 2025
저자: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI
초록
텍스트-투-비전 콘텐츠 평가는 시각적 품질과 정렬이라는 두 가지 중요한 측면에 달려 있습니다. 이러한 차원을 평가하기 위한 객관적 모델 개발에 상당한 진전이 있었지만, 이러한 모델의 성능은 인간 주석의 규모와 품질에 크게 의존합니다. 스케일링 법칙(Scaling Law)에 따르면, 인간이 라벨링한 인스턴스의 수를 늘리는 것은 평가 모델의 성능을 향상시키는 예측 가능한 패턴을 따릅니다. 따라서 우리는 텍스트-투-비전 콘텐츠의 시각적 품질과 정렬 수준을 평가하기 위한 포괄적인 데이터셋(Q-EVAL-100K)을 소개합니다. 이 데이터셋은 앞서 언급한 두 가지 측면에 대해 가장 큰 규모의 인간 주석 평균 의견 점수(Mean Opinion Scores, MOS) 컬렉션을 특징으로 합니다. Q-EVAL-100K 데이터셋은 텍스트-투-이미지와 텍스트-투-비디오 모델을 모두 포함하며, 100K 인스턴스(60K 이미지와 40K 비디오)에 대한 시각적 품질과 정렬에 초점을 맞춘 960K의 인간 주석을 제공합니다. 이 데이터셋을 컨텍스트 프롬프트와 함께 활용하여, 우리는 Q-Eval-Score를 제안합니다. 이는 시각적 품질과 정렬을 모두 평가할 수 있는 통합 모델로, 특히 긴 텍스트 프롬프트 정렬을 처리하기 위한 특별한 개선 사항을 포함합니다. 실험 결과는 제안된 Q-Eval-Score가 시각적 품질과 정렬 모두에서 우수한 성능을 달성하며, 다른 벤치마크에서도 강력한 일반화 능력을 보여준다는 것을 나타냅니다. 이러한 결과는 Q-EVAL-100K 데이터셋의 상당한 가치를 강조합니다. 데이터와 코드는 https://github.com/zzc-1998/Q-Eval에서 제공될 예정입니다.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual
quality and alignment. While significant progress has been made in developing
objective models to assess these dimensions, the performance of such models
heavily relies on the scale and quality of human annotations. According to
Scaling Law, increasing the number of human-labeled instances follows a
predictable pattern that enhances the performance of evaluation models.
Therefore, we introduce a comprehensive dataset designed to Evaluate Visual
quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring
the largest collection of human-labeled Mean Opinion Scores (MOS) for the
mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image
and text-to-video models, with 960K human annotations specifically focused on
visual quality and alignment for 100K instances (60K images and 40K videos).
Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified
model capable of evaluating both visual quality and alignment with special
improvements for handling long-text prompt alignment. Experimental results
indicate that the proposed Q-Eval-Score achieves superior performance on both
visual quality and alignment, with strong generalization capabilities across
other benchmarks. These findings highlight the significant value of the
Q-EVAL-100K dataset. Data and codes will be available at
https://github.com/zzc-1998/Q-Eval.Summary
AI-Generated Summary