GAIVOTA: Avaliação de Qualidade de Imagem sem Referência para Regiões de Interesse via Ajuste de Instruções de Visão e Linguagem
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
Autores: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Resumo
Os métodos existentes de Avaliação de Qualidade de Imagem (IQA) alcançam um sucesso notável na análise da qualidade da imagem como um todo, mas poucos trabalhos exploram a análise de qualidade para Regiões de Interesse (ROIs). A análise de qualidade das ROIs pode fornecer orientação detalhada para a melhoria da qualidade da imagem e é crucial para cenários que se concentram na qualidade ao nível da região. Este artigo propõe uma rede inovadora, SEAGULL, que pode Ver e Avaliar a qualidade das ROIs com Orientação de um grande modelo de visão e linguagem. SEAGULL incorpora um modelo de visão e linguagem (VLM), máscaras geradas pelo Modelo Segment Anything (SAM) para especificar ROIs, e um Extrator de Recursos baseado em Máscara (MFE) meticulosamente projetado para extrair tokens globais e locais para ROIs especificadas, permitindo uma avaliação precisa e detalhada da qualidade das ROIs. Além disso, este artigo constrói dois conjuntos de dados de IQA baseados em ROI, SEAGULL-100w e SEAGULL-3k, para treinar e avaliar a IQA baseada em ROI. SEAGULL-100w é composto por cerca de 100 mil imagens de distorção sintéticas com 33 milhões de ROIs para pré-treinamento a fim de melhorar a capacidade do modelo de perceção de qualidade regional, e SEAGULL-3k contém cerca de 3 mil ROIs de distorção autênticas para aprimorar a capacidade do modelo de perceber distorções do mundo real. Após o pré-treinamento em SEAGULL-100w e o ajuste fino em SEAGULL-3k, SEAGULL demonstra um desempenho notável na avaliação da qualidade detalhada das ROIs. O código e os conjuntos de dados estão disponíveis publicamente em https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary