SEAGULL: Evaluación de Calidad de Imagen Sin Referencia para Regiones de Interés a través de Ajuste de Instrucciones de Visión-Lenguaje.
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
Autores: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Resumen
Los métodos existentes de Evaluación de Calidad de Imágenes (IQA, por sus siglas en inglés) han logrado un éxito notable en el análisis de calidad de la imagen en general, pero pocos trabajos exploran el análisis de calidad para Regiones de Interés (ROIs). El análisis de calidad de las ROIs puede proporcionar orientación detallada para la mejora de la calidad de la imagen y es crucial para escenarios que se centran en la calidad a nivel de región. Este artículo propone una red novedosa, SEAGULL, que puede Ver y Evaluar la calidad de las ROIs con la Guía de un modelo de Visión-Lenguaje Grande. SEAGULL incorpora un modelo de visión-lenguaje (VLM), máscaras generadas por el Modelo Segment Anything (SAM) para especificar las ROIs, y un Extractor de Características basado en Máscaras (MFE) meticulosamente diseñado para extraer tokens globales y locales para las ROIs especificadas, lo que permite una precisa evaluación de la calidad detallada de las ROIs. Además, este artículo construye dos conjuntos de datos de IQA basados en ROIs, SEAGULL-100w y SEAGULL-3k, para entrenar y evaluar la IQA basada en ROIs. SEAGULL-100w consta de aproximadamente 100w imágenes de distorsión sintéticas con 33 millones de ROIs para pre-entrenamiento con el fin de mejorar la capacidad del modelo de percepción de calidad regional, y SEAGULL-3k contiene alrededor de 3k ROIs de distorsión auténticas para potenciar la capacidad del modelo de percibir distorsiones del mundo real. Después del pre-entrenamiento en SEAGULL-100w y el ajuste fino en SEAGULL-3k, SEAGULL muestra un rendimiento notable en la evaluación de calidad detallada de las ROIs. El código y los conjuntos de datos están disponibles públicamente en https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary