Próximo Token é Suficiente: Avaliação Realista de Qualidade de Imagem e Estética com Modelo de Linguagem Multimodal de Grande Escala
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
March 8, 2025
Autores: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI
Resumo
A rápida expansão da internet móvel resultou em um aumento substancial de imagens geradas por usuários (UGC, na sigla em inglês), tornando a avaliação abrangente dessas imagens urgente e essencial. Recentemente, modelos de linguagem multimodal de grande escala (MLLMs) demonstraram grande potencial na avaliação da qualidade de imagens (IQA) e na avaliação estética de imagens (IAA). Apesar desse progresso, a pontuação eficaz da qualidade e estética de imagens UGC ainda enfrenta dois desafios principais: 1) Uma única pontuação é insuficiente para capturar a percepção humana hierárquica. 2) Como usar MLLMs para gerar pontuações numéricas, como escores médios de opinião (MOS), permanece uma questão em aberto. Para abordar esses desafios, introduzimos um novo conjunto de dados, denominado Realistic image Quality and Aesthetic (RealQA), que inclui 14.715 imagens UGC, cada uma anotada com 10 atributos detalhados. Esses atributos abrangem três níveis: baixo (por exemplo, clareza da imagem), médio (por exemplo, integridade do assunto) e alto (por exemplo, composição). Além disso, conduzimos uma série de investigações aprofundadas e abrangentes sobre como prever efetivamente pontuações numéricas usando MLLMs. Surpreendentemente, ao prever apenas dois dígitos significativos extras, o paradigma de próximo token pode alcançar desempenho de última geração (SOTA). Além disso, com a ajuda da cadeia de pensamento (CoT) combinada com os atributos detalhados aprendidos, o método proposto pode superar os métodos SOTA em cinco conjuntos de dados públicos para IQA e IAA, com superior interpretabilidade, e mostrar forte generalização zero-shot para avaliação da qualidade de vídeo (VQA). O código e o conjunto de dados serão disponibilizados.
English
The rapid expansion of mobile internet has resulted in a substantial increase
in user-generated content (UGC) images, thereby making the thorough assessment
of UGC images both urgent and essential. Recently, multimodal large language
models (MLLMs) have shown great potential in image quality assessment (IQA) and
image aesthetic assessment (IAA). Despite this progress, effectively scoring
the quality and aesthetics of UGC images still faces two main challenges: 1) A
single score is inadequate to capture the hierarchical human perception. 2) How
to use MLLMs to output numerical scores, such as mean opinion scores (MOS),
remains an open question. To address these challenges, we introduce a novel
dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715
UGC images, each of which is annoted with 10 fine-grained attributes. These
attributes span three levels: low level (e.g., image clarity), middle level
(e.g., subject integrity) and high level (e.g., composition). Besides, we
conduct a series of in-depth and comprehensive investigations into how to
effectively predict numerical scores using MLLMs. Surprisingly, by predicting
just two extra significant digits, the next token paradigm can achieve SOTA
performance. Furthermore, with the help of chain of thought (CoT) combined with
the learnt fine-grained attributes, the proposed method can outperform SOTA
methods on five public datasets for IQA and IAA with superior interpretability
and show strong zero-shot generalization for video quality assessment (VQA).
The code and dataset will be released.Summary
AI-Generated Summary