ChatPaper.aiChatPaper

Il Prossimo Token è Sufficiente: Valutazione Realistica della Qualità e dell'Estetica delle Immagini con Modelli Linguistici Multimodali di Grande Scala

Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model

March 8, 2025
Autori: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI

Abstract

La rapida espansione di internet mobile ha portato a un sostanziale aumento dei contenuti generati dagli utenti (UGC) sotto forma di immagini, rendendo quindi urgente e essenziale una valutazione approfondita di queste immagini. Recentemente, i modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno dimostrato un grande potenziale nella valutazione della qualità delle immagini (IQA) e nella valutazione estetica delle immagini (IAA). Nonostante questi progressi, assegnare in modo efficace un punteggio alla qualità e all'estetica delle immagini UGC presenta ancora due principali sfide: 1) Un singolo punteggio è insufficiente per catturare la percezione umana gerarchica. 2) Come utilizzare gli MLLMs per produrre punteggi numerici, come i punteggi medi di opinione (MOS), rimane una questione aperta. Per affrontare queste sfide, introduciamo un nuovo dataset, denominato Realistic image Quality and Aesthetic (RealQA), che include 14.715 immagini UGC, ciascuna delle quali è annotata con 10 attributi dettagliati. Questi attributi coprono tre livelli: basso livello (ad esempio, chiarezza dell'immagine), medio livello (ad esempio, integrità del soggetto) e alto livello (ad esempio, composizione). Inoltre, conduciamo una serie di indagini approfondite e complete su come prevedere efficacemente i punteggi numerici utilizzando gli MLLMs. Sorprendentemente, prevedendo solo due cifre significative extra, il paradigma del token successivo può raggiungere prestazioni all'avanguardia (SOTA). Inoltre, con l'aiuto della catena di pensiero (CoT) combinata con gli attributi dettagliati appresi, il metodo proposto può superare i metodi SOTA su cinque dataset pubblici per IQA e IAA con una superiore interpretabilità e mostra una forte generalizzazione zero-shot per la valutazione della qualità dei video (VQA). Il codice e il dataset saranno rilasciati.
English
The rapid expansion of mobile internet has resulted in a substantial increase in user-generated content (UGC) images, thereby making the thorough assessment of UGC images both urgent and essential. Recently, multimodal large language models (MLLMs) have shown great potential in image quality assessment (IQA) and image aesthetic assessment (IAA). Despite this progress, effectively scoring the quality and aesthetics of UGC images still faces two main challenges: 1) A single score is inadequate to capture the hierarchical human perception. 2) How to use MLLMs to output numerical scores, such as mean opinion scores (MOS), remains an open question. To address these challenges, we introduce a novel dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715 UGC images, each of which is annoted with 10 fine-grained attributes. These attributes span three levels: low level (e.g., image clarity), middle level (e.g., subject integrity) and high level (e.g., composition). Besides, we conduct a series of in-depth and comprehensive investigations into how to effectively predict numerical scores using MLLMs. Surprisingly, by predicting just two extra significant digits, the next token paradigm can achieve SOTA performance. Furthermore, with the help of chain of thought (CoT) combined with the learnt fine-grained attributes, the proposed method can outperform SOTA methods on five public datasets for IQA and IAA with superior interpretability and show strong zero-shot generalization for video quality assessment (VQA). The code and dataset will be released.

Summary

AI-Generated Summary

PDF32March 12, 2025