ChatPaper.aiChatPaper

Q-Eval-100K : Évaluation de la qualité visuelle et du niveau d'alignement pour le contenu texte-à-vision

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

March 4, 2025
Auteurs: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI

Résumé

L'évaluation du contenu texte-à-vision repose sur deux aspects cruciaux : la qualité visuelle et l'alignement. Bien que des progrès significatifs aient été réalisés dans le développement de modèles objectifs pour évaluer ces dimensions, la performance de tels modèles dépend fortement de l'échelle et de la qualité des annotations humaines. Selon la loi d'échelle (Scaling Law), l'augmentation du nombre d'instances annotées par des humains suit un schéma prévisible qui améliore la performance des modèles d'évaluation. Par conséquent, nous introduisons un ensemble de données complet conçu pour évaluer la qualité visuelle et le niveau d'alignement pour le contenu texte-à-vision (Q-EVAL-100K), comprenant la plus grande collection de scores d'opinion moyenne (MOS) annotés par des humains pour les deux aspects mentionnés. Le jeu de données Q-EVAL-100K englobe à la fois les modèles texte-à-image et texte-à-vidéo, avec 960 000 annotations humaines spécifiquement axées sur la qualité visuelle et l'alignement pour 100 000 instances (60 000 images et 40 000 vidéos). En exploitant cet ensemble de données avec un contexte de prompt, nous proposons Q-Eval-Score, un modèle unifié capable d'évaluer à la fois la qualité visuelle et l'alignement, avec des améliorations spécifiques pour gérer l'alignement des prompts de texte long. Les résultats expérimentaux indiquent que le Q-Eval-Score proposé atteint une performance supérieure à la fois en qualité visuelle et en alignement, avec de solides capacités de généralisation sur d'autres benchmarks. Ces résultats mettent en évidence la valeur significative du jeu de données Q-EVAL-100K. Les données et les codes seront disponibles à l'adresse suivante : https://github.com/zzc-1998/Q-Eval.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual quality and alignment. While significant progress has been made in developing objective models to assess these dimensions, the performance of such models heavily relies on the scale and quality of human annotations. According to Scaling Law, increasing the number of human-labeled instances follows a predictable pattern that enhances the performance of evaluation models. Therefore, we introduce a comprehensive dataset designed to Evaluate Visual quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring the largest collection of human-labeled Mean Opinion Scores (MOS) for the mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image and text-to-video models, with 960K human annotations specifically focused on visual quality and alignment for 100K instances (60K images and 40K videos). Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified model capable of evaluating both visual quality and alignment with special improvements for handling long-text prompt alignment. Experimental results indicate that the proposed Q-Eval-Score achieves superior performance on both visual quality and alignment, with strong generalization capabilities across other benchmarks. These findings highlight the significant value of the Q-EVAL-100K dataset. Data and codes will be available at https://github.com/zzc-1998/Q-Eval.

Summary

AI-Generated Summary

PDF72March 5, 2025