Следующий токен достаточен: реалистичная оценка качества изображений и эстетики с помощью мультимодальной большой языковой модели
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
March 8, 2025
Авторы: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI
Аннотация
Быстрое расширение мобильного интернета привело к значительному увеличению количества пользовательского контента (UGC) в виде изображений, что делает тщательную оценку таких изображений как срочной, так и необходимой задачей. В последнее время мультимодальные большие языковые модели (MLLMs) продемонстрировали значительный потенциал в оценке качества изображений (IQA) и их эстетической оценки (IAA). Несмотря на этот прогресс, эффективное оценивание качества и эстетики UGC-изображений по-прежнему сталкивается с двумя основными проблемами: 1) Один балл недостаточен для отражения иерархического восприятия человека. 2) Вопрос о том, как использовать MLLMs для вывода числовых оценок, таких как средние мнения пользователей (MOS), остается открытым. Для решения этих проблем мы представляем новый набор данных под названием Realistic image Quality and Aesthetic (RealQA), включающий 14 715 UGC-изображений, каждое из которых аннотировано 10 детализированными атрибутами. Эти атрибуты охватывают три уровня: низкий (например, четкость изображения), средний (например, целостность объекта) и высокий (например, композиция). Кроме того, мы проводим серию углубленных и всесторонних исследований того, как эффективно предсказывать числовые оценки с использованием MLLMs. Удивительно, но предсказание всего двух дополнительных значащих цифр позволяет парадигме следующего токена достичь наилучших результатов (SOTA). Более того, с помощью цепочки рассуждений (CoT) в сочетании с изученными детализированными атрибутами предложенный метод превосходит SOTA-методы на пяти публичных наборах данных для IQA и IAA, демонстрируя превосходную интерпретируемость и сильную способность к обобщению в задачах оценки качества видео (VQA) в условиях нулевого обучения. Код и набор данных будут опубликованы.
English
The rapid expansion of mobile internet has resulted in a substantial increase
in user-generated content (UGC) images, thereby making the thorough assessment
of UGC images both urgent and essential. Recently, multimodal large language
models (MLLMs) have shown great potential in image quality assessment (IQA) and
image aesthetic assessment (IAA). Despite this progress, effectively scoring
the quality and aesthetics of UGC images still faces two main challenges: 1) A
single score is inadequate to capture the hierarchical human perception. 2) How
to use MLLMs to output numerical scores, such as mean opinion scores (MOS),
remains an open question. To address these challenges, we introduce a novel
dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715
UGC images, each of which is annoted with 10 fine-grained attributes. These
attributes span three levels: low level (e.g., image clarity), middle level
(e.g., subject integrity) and high level (e.g., composition). Besides, we
conduct a series of in-depth and comprehensive investigations into how to
effectively predict numerical scores using MLLMs. Surprisingly, by predicting
just two extra significant digits, the next token paradigm can achieve SOTA
performance. Furthermore, with the help of chain of thought (CoT) combined with
the learnt fine-grained attributes, the proposed method can outperform SOTA
methods on five public datasets for IQA and IAA with superior interpretability
and show strong zero-shot generalization for video quality assessment (VQA).
The code and dataset will be released.Summary
AI-Generated Summary