ChatPaper.aiChatPaper

HPSv3: Rumo a uma Pontuação de Preferência Humana de Amplo Espectro

HPSv3: Towards Wide-Spectrum Human Preference Score

August 5, 2025
Autores: Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li
cs.AI

Resumo

A avaliação de modelos de geração de texto para imagem requer alinhamento com a percepção humana, porém as métricas centradas no humano existentes são limitadas por cobertura de dados insuficiente, extração de características subótima e funções de perda ineficientes. Para enfrentar esses desafios, apresentamos o Human Preference Score v3 (HPSv3). (1) Lançamos o HPDv3, o primeiro conjunto de dados de preferência humana de amplo espectro, integrando 1,08 milhões de pares texto-imagem e 1,17 milhões de comparações pareadas anotadas, provenientes de modelos generativos de última geração e de imagens reais de baixa a alta qualidade. (2) Introduzimos um modelo de preferência baseado em VLM (Vision-Language Model) treinado com uma função de perda de classificação consciente da incerteza para uma classificação refinada. Além disso, propomos o Chain-of-Human-Preference (CoHP), um método iterativo de refinamento de imagem que melhora a qualidade sem dados adicionais, utilizando o HPSv3 para selecionar a melhor imagem em cada etapa. Experimentos extensivos demonstram que o HPSv3 serve como uma métrica robusta para avaliação de imagens de amplo espectro, e o CoHP oferece uma abordagem eficiente e alinhada com o humano para melhorar a qualidade da geração de imagens. O código e o conjunto de dados estão disponíveis na Página Inicial do HPSv3.
English
Evaluating text-to-image generation models requires alignment with human perception, yet existing human-centric metrics are constrained by limited data coverage, suboptimal feature extraction, and inefficient loss functions. To address these challenges, we introduce Human Preference Score v3 (HPSv3). (1) We release HPDv3, the first wide-spectrum human preference dataset integrating 1.08M text-image pairs and 1.17M annotated pairwise comparisons from state-of-the-art generative models and low to high-quality real-world images. (2) We introduce a VLM-based preference model trained using an uncertainty-aware ranking loss for fine-grained ranking. Besides, we propose Chain-of-Human-Preference (CoHP), an iterative image refinement method that enhances quality without extra data, using HPSv3 to select the best image at each step. Extensive experiments demonstrate that HPSv3 serves as a robust metric for wide-spectrum image evaluation, and CoHP offers an efficient and human-aligned approach to improve image generation quality. The code and dataset are available at the HPSv3 Homepage.
PDF182August 7, 2025