ChatPaper.aiChatPaper

Q-Eval-100K: Evaluación de la Calidad Visual y el Nivel de Alineación para Contenido de Texto a Visión

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

March 4, 2025
Autores: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI

Resumen

La evaluación de contenido de texto a visión se basa en dos aspectos cruciales: la calidad visual y la alineación. Aunque se han logrado avances significativos en el desarrollo de modelos objetivos para evaluar estas dimensiones, el rendimiento de dichos modelos depende en gran medida de la escala y la calidad de las anotaciones humanas. Según la Ley de Escalado, aumentar el número de instancias etiquetadas por humanos sigue un patrón predecible que mejora el rendimiento de los modelos de evaluación. Por lo tanto, presentamos un conjunto de datos integral diseñado para Evaluar la Calidad Visual y el Nivel de Alineación para contenido de texto a visión (Q-EVAL-100K), que incluye la mayor colección de Puntuaciones de Opinión Media (MOS) etiquetadas por humanos para los dos aspectos mencionados. El conjunto de datos Q-EVAL-100K abarca tanto modelos de texto a imagen como de texto a video, con 960K anotaciones humanas específicamente enfocadas en la calidad visual y la alineación para 100K instancias (60K imágenes y 40K videos). Aprovechando este conjunto de datos con indicaciones contextuales, proponemos Q-Eval-Score, un modelo unificado capaz de evaluar tanto la calidad visual como la alineación, con mejoras especiales para manejar la alineación de indicaciones de texto largo. Los resultados experimentales indican que el Q-Eval-Score propuesto logra un rendimiento superior tanto en calidad visual como en alineación, con fuertes capacidades de generalización en otros puntos de referencia. Estos hallazgos resaltan el valor significativo del conjunto de datos Q-EVAL-100K. Los datos y códigos estarán disponibles en https://github.com/zzc-1998/Q-Eval.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual quality and alignment. While significant progress has been made in developing objective models to assess these dimensions, the performance of such models heavily relies on the scale and quality of human annotations. According to Scaling Law, increasing the number of human-labeled instances follows a predictable pattern that enhances the performance of evaluation models. Therefore, we introduce a comprehensive dataset designed to Evaluate Visual quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring the largest collection of human-labeled Mean Opinion Scores (MOS) for the mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image and text-to-video models, with 960K human annotations specifically focused on visual quality and alignment for 100K instances (60K images and 40K videos). Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified model capable of evaluating both visual quality and alignment with special improvements for handling long-text prompt alignment. Experimental results indicate that the proposed Q-Eval-Score achieves superior performance on both visual quality and alignment, with strong generalization capabilities across other benchmarks. These findings highlight the significant value of the Q-EVAL-100K dataset. Data and codes will be available at https://github.com/zzc-1998/Q-Eval.

Summary

AI-Generated Summary

PDF72March 5, 2025