Volgende Token Is Voldoende: Realistische Beeldkwaliteit en Esthetische Beoordeling met Multimodale Grote Taalmodellen
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
March 8, 2025
Auteurs: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI
Samenvatting
De snelle uitbreiding van mobiel internet heeft geleid tot een aanzienlijke toename van door gebruikers gegenereerde inhoud (UGC) afbeeldingen, waardoor een grondige beoordeling van UGC-afbeeldingen zowel urgent als essentieel is geworden. Recentelijk hebben multimodale grote taalmodellen (MLLMs) groot potentieel getoond in beeldkwaliteitsbeoordeling (IQA) en beeldesthetische beoordeling (IAA). Ondanks deze vooruitgang zijn er nog steeds twee belangrijke uitdagingen bij het effectief beoordelen van de kwaliteit en esthetiek van UGC-afbeeldingen: 1) Een enkele score is onvoldoende om de hiërarchische menselijke perceptie vast te leggen. 2) Hoe MLLMs kunnen worden gebruikt om numerieke scores, zoals gemiddelde opiniescores (MOS), te genereren, blijft een open vraag. Om deze uitdagingen aan te pakken, introduceren we een nieuwe dataset, genaamd Realistic image Quality and Aesthetic (RealQA), die 14.715 UGC-afbeeldingen bevat, elk geannoteerd met 10 fijnmazige attributen. Deze attributen beslaan drie niveaus: laag niveau (bijv. beeldhelderheid), midden niveau (bijv. onderwerpintegriteit) en hoog niveau (bijv. compositie). Daarnaast voeren we een reeks diepgaande en uitgebreide onderzoeken uit naar hoe numerieke scores effectief kunnen worden voorspeld met behulp van MLLMs. Verrassend genoeg kan het next token-paradigma state-of-the-art (SOTA) prestaties bereiken door slechts twee extra significante cijfers te voorspellen. Bovendien kan de voorgestelde methode, met behulp van chain of thought (CoT) gecombineerd met de geleerde fijnmazige attributen, SOTA-methoden overtreffen op vijf openbare datasets voor IQA en IAA met superieure interpreteerbaarheid en sterke zero-shot generalisatie voor videokwaliteitsbeoordeling (VQA) tonen. De code en dataset zullen worden vrijgegeven.
English
The rapid expansion of mobile internet has resulted in a substantial increase
in user-generated content (UGC) images, thereby making the thorough assessment
of UGC images both urgent and essential. Recently, multimodal large language
models (MLLMs) have shown great potential in image quality assessment (IQA) and
image aesthetic assessment (IAA). Despite this progress, effectively scoring
the quality and aesthetics of UGC images still faces two main challenges: 1) A
single score is inadequate to capture the hierarchical human perception. 2) How
to use MLLMs to output numerical scores, such as mean opinion scores (MOS),
remains an open question. To address these challenges, we introduce a novel
dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715
UGC images, each of which is annoted with 10 fine-grained attributes. These
attributes span three levels: low level (e.g., image clarity), middle level
(e.g., subject integrity) and high level (e.g., composition). Besides, we
conduct a series of in-depth and comprehensive investigations into how to
effectively predict numerical scores using MLLMs. Surprisingly, by predicting
just two extra significant digits, the next token paradigm can achieve SOTA
performance. Furthermore, with the help of chain of thought (CoT) combined with
the learnt fine-grained attributes, the proposed method can outperform SOTA
methods on five public datasets for IQA and IAA with superior interpretability
and show strong zero-shot generalization for video quality assessment (VQA).
The code and dataset will be released.Summary
AI-Generated Summary