HPSv3: Verso un Punteggio di Preferenza Umana a Ampio Spettro
HPSv3: Towards Wide-Spectrum Human Preference Score
August 5, 2025
Autori: Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li
cs.AI
Abstract
La valutazione dei modelli di generazione da testo a immagine richiede un allineamento con la percezione umana, tuttavia le metriche esistenti centrate sull'uomo sono limitate da una copertura dati ristretta, un'estrazione di caratteristiche subottimale e funzioni di perdita inefficienti. Per affrontare queste sfide, introduciamo lo Human Preference Score v3 (HPSv3). (1) Rilasciamo HPDv3, il primo dataset di preferenze umane a spettro ampio che integra 1,08 milioni di coppie testo-immagine e 1,17 milioni di confronti a coppie annotati, provenienti da modelli generativi all'avanguardia e da immagini reali di qualità variabile da bassa a alta. (2) Introduciamo un modello di preferenze basato su VLM, addestrato utilizzando una funzione di perdita di ranking consapevole dell'incertezza per un ranking fine. Inoltre, proponiamo il Chain-of-Human-Preference (CoHP), un metodo iterativo di raffinamento delle immagini che migliora la qualità senza dati aggiuntivi, utilizzando HPSv3 per selezionare la migliore immagine ad ogni passo. Esperimenti estensivi dimostrano che HPSv3 funge da metrica robusta per la valutazione di immagini a spettro ampio, e che CoHP offre un approccio efficiente e allineato all'uomo per migliorare la qualità della generazione di immagini. Il codice e il dataset sono disponibili sulla HPSv3 Homepage.
English
Evaluating text-to-image generation models requires alignment with human
perception, yet existing human-centric metrics are constrained by limited data
coverage, suboptimal feature extraction, and inefficient loss functions. To
address these challenges, we introduce Human Preference Score v3 (HPSv3). (1)
We release HPDv3, the first wide-spectrum human preference dataset integrating
1.08M text-image pairs and 1.17M annotated pairwise comparisons from
state-of-the-art generative models and low to high-quality real-world images.
(2) We introduce a VLM-based preference model trained using an
uncertainty-aware ranking loss for fine-grained ranking. Besides, we propose
Chain-of-Human-Preference (CoHP), an iterative image refinement method that
enhances quality without extra data, using HPSv3 to select the best image at
each step. Extensive experiments demonstrate that HPSv3 serves as a robust
metric for wide-spectrum image evaluation, and CoHP offers an efficient and
human-aligned approach to improve image generation quality. The code and
dataset are available at the HPSv3 Homepage.