Q-Eval-100K: Evaluatie van visuele kwaliteit en uitlijningsniveau voor tekst-naar-visuele inhoud
Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content
March 4, 2025
Auteurs: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI
Samenvatting
Het evalueren van tekst-naar-visuele-inhoud berust op twee cruciale aspecten: visuele kwaliteit en afstemming. Hoewel aanzienlijke vooruitgang is geboekt in het ontwikkelen van objectieve modellen om deze dimensies te beoordelen, is de prestaties van dergelijke modellen sterk afhankelijk van de schaal en kwaliteit van menselijke annotaties. Volgens de schaalwet volgt het verhogen van het aantal door mensen gelabelde instanties een voorspelbaar patroon dat de prestaties van evaluatiemodellen verbetert. Daarom introduceren we een uitgebreide dataset die is ontworpen om de visuele kwaliteit en afstemmingsniveau van tekst-naar-visuele-inhoud te evalueren (Q-EVAL-100K), met de grootste verzameling door mensen gelabelde Mean Opinion Scores (MOS) voor de genoemde twee aspecten. De Q-EVAL-100K dataset omvat zowel tekst-naar-beeld als tekst-naar-video modellen, met 960K menselijke annotaties die specifiek gericht zijn op visuele kwaliteit en afstemming voor 100K instanties (60K afbeeldingen en 40K video's). Gebruikmakend van deze dataset met contextprompt, stellen we Q-Eval-Score voor, een geïntegreerd model dat zowel visuele kwaliteit als afstemming kan evalueren, met speciale verbeteringen voor het omgaan met afstemming van lange-tekstprompts. Experimentele resultaten geven aan dat de voorgestelde Q-Eval-Score superieure prestaties behaalt op zowel visuele kwaliteit als afstemming, met sterke generalisatiecapaciteiten over andere benchmarks. Deze bevindingen onderstrepen de aanzienlijke waarde van de Q-EVAL-100K dataset. Data en code zullen beschikbaar zijn op https://github.com/zzc-1998/Q-Eval.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual
quality and alignment. While significant progress has been made in developing
objective models to assess these dimensions, the performance of such models
heavily relies on the scale and quality of human annotations. According to
Scaling Law, increasing the number of human-labeled instances follows a
predictable pattern that enhances the performance of evaluation models.
Therefore, we introduce a comprehensive dataset designed to Evaluate Visual
quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring
the largest collection of human-labeled Mean Opinion Scores (MOS) for the
mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image
and text-to-video models, with 960K human annotations specifically focused on
visual quality and alignment for 100K instances (60K images and 40K videos).
Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified
model capable of evaluating both visual quality and alignment with special
improvements for handling long-text prompt alignment. Experimental results
indicate that the proposed Q-Eval-Score achieves superior performance on both
visual quality and alignment, with strong generalization capabilities across
other benchmarks. These findings highlight the significant value of the
Q-EVAL-100K dataset. Data and codes will be available at
https://github.com/zzc-1998/Q-Eval.Summary
AI-Generated Summary