ChatPaper.aiChatPaper

次のトークンで十分:マルチモーダル大規模言語モデルによる現実的な画質と美的スコアリング

Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model

March 8, 2025
著者: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI

要旨

モバイルインターネットの急速な拡大により、ユーザー生成コンテンツ(UGC)画像が大幅に増加し、UGC画像の徹底的な評価が緊急かつ不可欠な課題となっています。最近では、マルチモーダル大規模言語モデル(MLLM)が画像品質評価(IQA)および画像美的評価(IAA)において大きな可能性を示しています。しかし、UGC画像の品質と美的感覚を効果的にスコアリングするには、依然として2つの主要な課題があります:1)単一のスコアでは、人間の階層的な知覚を十分に捉えることができない。2)MLLMを使用して平均意見スコア(MOS)などの数値スコアを出力する方法は未解決の問題である。これらの課題に対処するため、14,715枚のUGC画像を含む新しいデータセット「Realistic image Quality and Aesthetic(RealQA)」を導入しました。各画像は10の細かい属性で注釈付けされており、これらの属性は低レベル(例:画像の鮮明さ)、中レベル(例:被写体の完全性)、高レベル(例:構図)の3つのレベルにまたがっています。さらに、MLLMを使用して数値スコアを効果的に予測する方法について、一連の詳細かつ包括的な調査を実施しました。驚くべきことに、わずか2つの追加の有効数字を予測するだけで、次のトークンパラダイムがSOTA性能を達成できることがわかりました。さらに、思考の連鎖(CoT)と学習した細かい属性を組み合わせることで、提案手法はIQAおよびIAAの5つの公開データセットにおいてSOTA手法を上回り、優れた解釈可能性を示し、ビデオ品質評価(VQA)に対する強力なゼロショット汎化能力を示しました。コードとデータセットは公開予定です。
English
The rapid expansion of mobile internet has resulted in a substantial increase in user-generated content (UGC) images, thereby making the thorough assessment of UGC images both urgent and essential. Recently, multimodal large language models (MLLMs) have shown great potential in image quality assessment (IQA) and image aesthetic assessment (IAA). Despite this progress, effectively scoring the quality and aesthetics of UGC images still faces two main challenges: 1) A single score is inadequate to capture the hierarchical human perception. 2) How to use MLLMs to output numerical scores, such as mean opinion scores (MOS), remains an open question. To address these challenges, we introduce a novel dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715 UGC images, each of which is annoted with 10 fine-grained attributes. These attributes span three levels: low level (e.g., image clarity), middle level (e.g., subject integrity) and high level (e.g., composition). Besides, we conduct a series of in-depth and comprehensive investigations into how to effectively predict numerical scores using MLLMs. Surprisingly, by predicting just two extra significant digits, the next token paradigm can achieve SOTA performance. Furthermore, with the help of chain of thought (CoT) combined with the learnt fine-grained attributes, the proposed method can outperform SOTA methods on five public datasets for IQA and IAA with superior interpretability and show strong zero-shot generalization for video quality assessment (VQA). The code and dataset will be released.

Summary

AI-Generated Summary

PDF32March 12, 2025