Q-Eval-100K: Bewertung der visuellen Qualität und Ausrichtungsstufe für Text-zu-Vision-Inhalte
Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
March 4, 2025
Autoren: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI
Zusammenfassung
Die Bewertung von Text-zu-Vision-Inhalten basiert auf zwei entscheidenden Aspekten: der visuellen Qualität und der Ausrichtung. Obwohl bedeutende Fortschritte bei der Entwicklung objektiver Modelle zur Bewertung dieser Dimensionen erzielt wurden, hängt die Leistung solcher Modelle stark vom Umfang und der Qualität menschlicher Annotationen ab. Gemäß dem Skalierungsgesetz führt die Erhöhung der Anzahl von durch Menschen gekennzeichneten Instanzen zu einem vorhersehbaren Muster, das die Leistung von Bewertungsmodellen verbessert. Daher stellen wir einen umfassenden Datensatz vor, der entwickelt wurde, um die visuelle Qualität und das Ausrichtungsniveau von Text-zu-Vision-Inhalten zu bewerten (Q-EVAL-100K). Dieser Datensatz umfasst die größte Sammlung von menschlich bewerteten Mean Opinion Scores (MOS) für die genannten beiden Aspekte. Der Q-EVAL-100K-Datensatz beinhaltet sowohl Text-zu-Bild- als auch Text-zu-Video-Modelle, mit 960.000 menschlichen Annotationen, die speziell auf die visuelle Qualität und Ausrichtung von 100.000 Instanzen (60.000 Bilder und 40.000 Videos) fokussiert sind. Unter Nutzung dieses Datensatzes mit Kontext-Prompt schlagen wir den Q-Eval-Score vor, ein einheitliches Modell, das sowohl die visuelle Qualität als auch die Ausrichtung bewerten kann, mit besonderen Verbesserungen für die Handhabung der Ausrichtung bei langen Text-Prompts. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Q-Eval-Score sowohl bei der visuellen Qualität als auch bei der Ausrichtung eine überlegene Leistung erzielt, mit starken Generalisierungsfähigkeiten über andere Benchmarks hinweg. Diese Ergebnisse unterstreichen den bedeutenden Wert des Q-EVAL-100K-Datensatzes. Daten und Codes werden unter https://github.com/zzc-1998/Q-Eval verfügbar sein.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual
quality and alignment. While significant progress has been made in developing
objective models to assess these dimensions, the performance of such models
heavily relies on the scale and quality of human annotations. According to
Scaling Law, increasing the number of human-labeled instances follows a
predictable pattern that enhances the performance of evaluation models.
Therefore, we introduce a comprehensive dataset designed to Evaluate Visual
quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring
the largest collection of human-labeled Mean Opinion Scores (MOS) for the
mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image
and text-to-video models, with 960K human annotations specifically focused on
visual quality and alignment for 100K instances (60K images and 40K videos).
Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified
model capable of evaluating both visual quality and alignment with special
improvements for handling long-text prompt alignment. Experimental results
indicate that the proposed Q-Eval-Score achieves superior performance on both
visual quality and alignment, with strong generalization capabilities across
other benchmarks. These findings highlight the significant value of the
Q-EVAL-100K dataset. Data and codes will be available at
https://github.com/zzc-1998/Q-Eval.Summary
AI-Generated Summary