El Siguiente Token es Suficiente: Evaluación Realista de la Calidad de Imagen y Estética con Modelos de Lenguaje Multimodales de Gran Escala
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model
March 8, 2025
Autores: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI
Resumen
La rápida expansión de internet móvil ha resultado en un aumento sustancial de imágenes generadas por usuarios (UGC, por sus siglas en inglés), lo que hace que la evaluación exhaustiva de estas imágenes sea urgente y esencial. Recientemente, los modelos de lenguaje multimodal de gran escala (MLLMs) han demostrado un gran potencial en la evaluación de la calidad de imágenes (IQA) y la evaluación estética de imágenes (IAA). A pesar de este progreso, la puntuación efectiva de la calidad y estética de las imágenes UGC aún enfrenta dos desafíos principales: 1) Una sola puntuación es insuficiente para capturar la percepción humana jerárquica. 2) Cómo utilizar MLLMs para generar puntuaciones numéricas, como las puntuaciones medias de opinión (MOS), sigue siendo una pregunta abierta. Para abordar estos desafíos, presentamos un nuevo conjunto de datos, denominado Realistic image Quality and Aesthetic (RealQA), que incluye 14,715 imágenes UGC, cada una anotada con 10 atributos detallados. Estos atributos abarcan tres niveles: bajo (por ejemplo, claridad de la imagen), medio (por ejemplo, integridad del sujeto) y alto (por ejemplo, composición). Además, realizamos una serie de investigaciones profundas y exhaustivas sobre cómo predecir efectivamente puntuaciones numéricas utilizando MLLMs. Sorprendentemente, al predecir solo dos dígitos significativos adicionales, el paradigma del siguiente token puede alcanzar un rendimiento de vanguardia (SOTA). Además, con la ayuda de la cadena de pensamiento (CoT) combinada con los atributos detallados aprendidos, el método propuesto puede superar a los métodos SOTA en cinco conjuntos de datos públicos para IQA e IAA con una interpretabilidad superior y mostrar una fuerte generalización en modo cero para la evaluación de la calidad de video (VQA). El código y el conjunto de datos serán publicados.
English
The rapid expansion of mobile internet has resulted in a substantial increase
in user-generated content (UGC) images, thereby making the thorough assessment
of UGC images both urgent and essential. Recently, multimodal large language
models (MLLMs) have shown great potential in image quality assessment (IQA) and
image aesthetic assessment (IAA). Despite this progress, effectively scoring
the quality and aesthetics of UGC images still faces two main challenges: 1) A
single score is inadequate to capture the hierarchical human perception. 2) How
to use MLLMs to output numerical scores, such as mean opinion scores (MOS),
remains an open question. To address these challenges, we introduce a novel
dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715
UGC images, each of which is annoted with 10 fine-grained attributes. These
attributes span three levels: low level (e.g., image clarity), middle level
(e.g., subject integrity) and high level (e.g., composition). Besides, we
conduct a series of in-depth and comprehensive investigations into how to
effectively predict numerical scores using MLLMs. Surprisingly, by predicting
just two extra significant digits, the next token paradigm can achieve SOTA
performance. Furthermore, with the help of chain of thought (CoT) combined with
the learnt fine-grained attributes, the proposed method can outperform SOTA
methods on five public datasets for IQA and IAA with superior interpretability
and show strong zero-shot generalization for video quality assessment (VQA).
The code and dataset will be released.Summary
AI-Generated Summary