ЧАЙКА: Оценка качества изображения без ссылок для областей интереса через настройку инструкций зрительного языка
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
Авторы: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Аннотация
Существующие методы оценки качества изображений (IQA) достигают значительных успехов в анализе качества для общего изображения, но немногие работы исследуют анализ качества для Областей Интереса (ROIs). Анализ качества ROIs может обеспечить детальное руководство для улучшения качества изображения и является критическим для сценариев, сосредоточенных на качестве на уровне области. В данной статье предлагается новая сеть, SEAGULL, которая может Видеть и Оценивать качество ROIs с Поддержкой от Большой модели видео-языка. SEAGULL включает модель видео-языка (VLM), маски, сгенерированные моделью Segment Anything Model (SAM) для определения ROIs, а также тщательно разработанный Извлекатель Признаков на Основе Маски (MFE) для извлечения глобальных и локальных токенов для указанных ROIs, обеспечивая точную детальную оценку качества ROIs. Более того, в данной статье созданы два набора данных для оценки качества на основе ROIs, SEAGULL-100w и SEAGULL-3k, для обучения и оценки оценки качества на основе ROIs. SEAGULL-100w включает около 100 тыс. синтетических изображений с искажениями с 33 миллионами ROIs для предварительного обучения с целью улучшения способности модели к восприятию качества на уровне области, а SEAGULL-3k содержит около 3 тыс. аутентичных искаженных ROIs для улучшения способности модели воспринимать искажения реального мира. После предварительного обучения на SEAGULL-100w и донастройки на SEAGULL-3k SEAGULL показывает замечательные результаты в оценке качества ROIs с высокой детализацией. Код и наборы данных доступны публично по адресу https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary