Le Token Suivant Suffit : Évaluation Réaliste de la Qualité et de l'Esthétique des Images avec un Modèle de Langage Multimodal à Grande Échelle
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
March 8, 2025
Auteurs: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI
Résumé
L'expansion rapide de l'internet mobile a entraîné une augmentation substantielle du contenu généré par les utilisateurs (UGC) sous forme d'images, rendant ainsi l'évaluation approfondie de ces images à la fois urgente et essentielle. Récemment, les modèles de langage multimodaux de grande taille (MLLMs) ont montré un grand potentiel dans l'évaluation de la qualité des images (IQA) et l'évaluation esthétique des images (IAA). Malgré ces progrès, l'attribution efficace de scores de qualité et d'esthétique aux images UGC reste confrontée à deux défis majeurs : 1) Un score unique est insuffisant pour capturer la perception hiérarchique humaine. 2) La manière d'utiliser les MLLMs pour produire des scores numériques, tels que les scores d'opinion moyenne (MOS), reste une question ouverte. Pour relever ces défis, nous introduisons un nouveau jeu de données, nommé Realistic image Quality and Aesthetic (RealQA), comprenant 14 715 images UGC, chacune annotée avec 10 attributs granulaires. Ces attributs couvrent trois niveaux : bas niveau (par exemple, la clarté de l'image), niveau intermédiaire (par exemple, l'intégrité du sujet) et haut niveau (par exemple, la composition). En outre, nous menons une série d'investigations approfondies et complètes sur la manière de prédire efficacement des scores numériques à l'aide des MLLMs. Étonnamment, en prédisant simplement deux chiffres significatifs supplémentaires, le paradigme du prochain jeton peut atteindre des performances SOTA. De plus, avec l'aide de la chaîne de pensée (CoT) combinée aux attributs granulaires appris, la méthode proposée peut surpasser les méthodes SOTA sur cinq jeux de données publics pour l'IQA et l'IAA, avec une interprétabilité supérieure, et montre une forte généralisation zero-shot pour l'évaluation de la qualité vidéo (VQA). Le code et le jeu de données seront publiés.
English
The rapid expansion of mobile internet has resulted in a substantial increase
in user-generated content (UGC) images, thereby making the thorough assessment
of UGC images both urgent and essential. Recently, multimodal large language
models (MLLMs) have shown great potential in image quality assessment (IQA) and
image aesthetic assessment (IAA). Despite this progress, effectively scoring
the quality and aesthetics of UGC images still faces two main challenges: 1) A
single score is inadequate to capture the hierarchical human perception. 2) How
to use MLLMs to output numerical scores, such as mean opinion scores (MOS),
remains an open question. To address these challenges, we introduce a novel
dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715
UGC images, each of which is annoted with 10 fine-grained attributes. These
attributes span three levels: low level (e.g., image clarity), middle level
(e.g., subject integrity) and high level (e.g., composition). Besides, we
conduct a series of in-depth and comprehensive investigations into how to
effectively predict numerical scores using MLLMs. Surprisingly, by predicting
just two extra significant digits, the next token paradigm can achieve SOTA
performance. Furthermore, with the help of chain of thought (CoT) combined with
the learnt fine-grained attributes, the proposed method can outperform SOTA
methods on five public datasets for IQA and IAA with superior interpretability
and show strong zero-shot generalization for video quality assessment (VQA).
The code and dataset will be released.Summary
AI-Generated Summary