ChatPaper.aiChatPaper

Q-Eval-100K: Valutazione della Qualità Visiva e del Livello di Allineamento per i Contenuti da Testo a Immagine

Q-Eval-100K: Evaluating Visual Quality and Alignment Level for Text-to-Vision Content

March 4, 2025
Autori: Zicheng Zhang, Tengchuan Kou, Shushi Wang, Chunyi Li, Wei Sun, Wei Wang, Xiaoyu Li, Zongyu Wang, Xuezhi Cao, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai
cs.AI

Abstract

La valutazione del contenuto testo-visione si basa su due aspetti cruciali: la qualità visiva e l'allineamento. Sebbene siano stati compiuti progressi significativi nello sviluppo di modelli oggettivi per valutare queste dimensioni, le prestazioni di tali modelli dipendono fortemente dalla scala e dalla qualità delle annotazioni umane. Secondo la Legge di Scalabilità, aumentare il numero di istanze etichettate da esseri umani segue uno schema prevedibile che migliora le prestazioni dei modelli di valutazione. Pertanto, introduciamo un dataset completo progettato per valutare la qualità visiva e il livello di allineamento per il contenuto testo-visione (Q-EVAL-100K), che presenta la più vasta raccolta di punteggi Mean Opinion Score (MOS) etichettati da esseri umani per i due aspetti menzionati. Il dataset Q-EVAL-100K comprende sia modelli testo-immagine che testo-video, con 960K annotazioni umane specificamente focalizzate sulla qualità visiva e sull'allineamento per 100K istanze (60K immagini e 40K video). Sfruttando questo dataset con prompt contestuali, proponiamo Q-Eval-Score, un modello unificato in grado di valutare sia la qualità visiva che l'allineamento, con miglioramenti specifici per gestire l'allineamento di prompt di testo lungo. I risultati sperimentali indicano che il Q-Eval-Score proposto raggiunge prestazioni superiori sia per la qualità visiva che per l'allineamento, con forti capacità di generalizzazione su altri benchmark. Questi risultati evidenziano il valore significativo del dataset Q-EVAL-100K. I dati e i codici saranno disponibili su https://github.com/zzc-1998/Q-Eval.
English
Evaluating text-to-vision content hinges on two crucial aspects: visual quality and alignment. While significant progress has been made in developing objective models to assess these dimensions, the performance of such models heavily relies on the scale and quality of human annotations. According to Scaling Law, increasing the number of human-labeled instances follows a predictable pattern that enhances the performance of evaluation models. Therefore, we introduce a comprehensive dataset designed to Evaluate Visual quality and Alignment Level for text-to-vision content (Q-EVAL-100K), featuring the largest collection of human-labeled Mean Opinion Scores (MOS) for the mentioned two aspects. The Q-EVAL-100K dataset encompasses both text-to-image and text-to-video models, with 960K human annotations specifically focused on visual quality and alignment for 100K instances (60K images and 40K videos). Leveraging this dataset with context prompt, we propose Q-Eval-Score, a unified model capable of evaluating both visual quality and alignment with special improvements for handling long-text prompt alignment. Experimental results indicate that the proposed Q-Eval-Score achieves superior performance on both visual quality and alignment, with strong generalization capabilities across other benchmarks. These findings highlight the significant value of the Q-EVAL-100K dataset. Data and codes will be available at https://github.com/zzc-1998/Q-Eval.

Summary

AI-Generated Summary

PDF72March 5, 2025