ChatPaper.aiChatPaper

Q-Eval-100K: Avaliação da Qualidade Visual e Nível de Alinhamento para Conteúdo de Texto para Visão

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

March 4, 2025
Autores: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI

Resumo

A avaliação de conteúdo texto-para-visão depende de dois aspectos cruciais: qualidade visual e alinhamento. Embora progressos significativos tenham sido feitos no desenvolvimento de modelos objetivos para avaliar essas dimensões, o desempenho de tais modelos depende fortemente da escala e da qualidade das anotações humanas. De acordo com a Lei de Escalonamento, aumentar o número de instâncias rotuladas por humanos segue um padrão previsível que melhora o desempenho dos modelos de avaliação. Portanto, introduzimos um conjunto de dados abrangente projetado para Avaliar a Qualidade Visual e o Nível de Alinhamento para conteúdo texto-para-visão (Q-EVAL-100K), apresentando a maior coleção de Pontuações de Opinião Média (MOS) rotuladas por humanos para os dois aspectos mencionados. O conjunto de dados Q-EVAL-100K abrange tanto modelos texto-para-imagem quanto texto-para-vídeo, com 960 mil anotações humanas especificamente focadas em qualidade visual e alinhamento para 100 mil instâncias (60 mil imagens e 40 mil vídeos). Utilizando esse conjunto de dados com prompt de contexto, propomos o Q-Eval-Score, um modelo unificado capaz de avaliar tanto a qualidade visual quanto o alinhamento, com melhorias especiais para lidar com o alinhamento de prompts de texto longo. Resultados experimentais indicam que o Q-Eval-Score proposto alcança desempenho superior tanto em qualidade visual quanto em alinhamento, com fortes capacidades de generalização em outros benchmarks. Essas descobertas destacam o valor significativo do conjunto de dados Q-EVAL-100K. Dados e códigos estarão disponíveis em https://github.com/zzc-1998/Q-Eval.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual quality and alignment. While significant progress has been made in developing objective models to assess these dimensions, the performance of such models heavily relies on the scale and quality of human annotations. According to Scaling Law, increasing the number of human-labeled instances follows a predictable pattern that enhances the performance of evaluation models. Therefore, we introduce a comprehensive dataset designed to Evaluate Visual quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring the largest collection of human-labeled Mean Opinion Scores (MOS) for the mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image and text-to-video models, with 960K human annotations specifically focused on visual quality and alignment for 100K instances (60K images and 40K videos). Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified model capable of evaluating both visual quality and alignment with special improvements for handling long-text prompt alignment. Experimental results indicate that the proposed Q-Eval-Score achieves superior performance on both visual quality and alignment, with strong generalization capabilities across other benchmarks. These findings highlight the significant value of the Q-EVAL-100K dataset. Data and codes will be available at https://github.com/zzc-1998/Q-Eval.

Summary

AI-Generated Summary

PDF72March 5, 2025