ChatPaper.aiChatPaper

El Siguiente Token es Suficiente: Evaluación Realista de la Calidad de Imagen y Estética con Modelos de Lenguaje Multimodales de Gran Escala

Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model

March 8, 2025
Autores: Mingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
cs.AI

Resumen

La rápida expansión de internet móvil ha resultado en un aumento sustancial de imágenes generadas por usuarios (UGC, por sus siglas en inglés), lo que hace que la evaluación exhaustiva de estas imágenes sea urgente y esencial. Recientemente, los modelos de lenguaje multimodal de gran escala (MLLMs) han demostrado un gran potencial en la evaluación de la calidad de imágenes (IQA) y la evaluación estética de imágenes (IAA). A pesar de este progreso, la puntuación efectiva de la calidad y estética de las imágenes UGC aún enfrenta dos desafíos principales: 1) Una sola puntuación es insuficiente para capturar la percepción humana jerárquica. 2) Cómo utilizar MLLMs para generar puntuaciones numéricas, como las puntuaciones medias de opinión (MOS), sigue siendo una pregunta abierta. Para abordar estos desafíos, presentamos un nuevo conjunto de datos, denominado Realistic image Quality and Aesthetic (RealQA), que incluye 14,715 imágenes UGC, cada una anotada con 10 atributos detallados. Estos atributos abarcan tres niveles: bajo (por ejemplo, claridad de la imagen), medio (por ejemplo, integridad del sujeto) y alto (por ejemplo, composición). Además, realizamos una serie de investigaciones profundas y exhaustivas sobre cómo predecir efectivamente puntuaciones numéricas utilizando MLLMs. Sorprendentemente, al predecir solo dos dígitos significativos adicionales, el paradigma del siguiente token puede alcanzar un rendimiento de vanguardia (SOTA). Además, con la ayuda de la cadena de pensamiento (CoT) combinada con los atributos detallados aprendidos, el método propuesto puede superar a los métodos SOTA en cinco conjuntos de datos públicos para IQA e IAA con una interpretabilidad superior y mostrar una fuerte generalización en modo cero para la evaluación de la calidad de video (VQA). El código y el conjunto de datos serán publicados.
English
The rapid expansion of mobile internet has resulted in a substantial increase in user-generated content (UGC) images, thereby making the thorough assessment of UGC images both urgent and essential. Recently, multimodal large language models (MLLMs) have shown great potential in image quality assessment (IQA) and image aesthetic assessment (IAA). Despite this progress, effectively scoring the quality and aesthetics of UGC images still faces two main challenges: 1) A single score is inadequate to capture the hierarchical human perception. 2) How to use MLLMs to output numerical scores, such as mean opinion scores (MOS), remains an open question. To address these challenges, we introduce a novel dataset, named Realistic image Quality and Aesthetic (RealQA), including 14,715 UGC images, each of which is annoted with 10 fine-grained attributes. These attributes span three levels: low level (e.g., image clarity), middle level (e.g., subject integrity) and high level (e.g., composition). Besides, we conduct a series of in-depth and comprehensive investigations into how to effectively predict numerical scores using MLLMs. Surprisingly, by predicting just two extra significant digits, the next token paradigm can achieve SOTA performance. Furthermore, with the help of chain of thought (CoT) combined with the learnt fine-grained attributes, the proposed method can outperform SOTA methods on five public datasets for IQA and IAA with superior interpretability and show strong zero-shot generalization for video quality assessment (VQA). The code and dataset will be released.

Summary

AI-Generated Summary

PDF32March 12, 2025