SEAGULL: 関心領域に対する非参照画像品質評価 におけるビジョン言語指示チューニング
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
著者: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
要旨
既存の画像品質評価(IQA)手法は、全体的な画像の品質を分析するのに顕著な成功を収めていますが、わずかな研究が興味領域(ROIs)の品質分析を探求しています。ROIsの品質分析は、画像品質の向上のための細かい指針を提供し、領域レベルの品質に焦点を当てたシナリオにおいて重要です。本論文では、SEAGULLという新しいネットワークを提案します。このネットワークは、大規模なビジョン・ランゲージモデルからのガイダンスを受けて、ROIsの品質を見て評価できます。SEAGULLは、ビジョン・ランゲージモデル(VLM)、ROIsを指定するために生成されたセグメント・アニシング・モデル(SAM)によるマスク、そして指定されたROIsのための丹念に設計されたマスクベースの特徴抽出器(MFE)を組み込んでおり、指定されたROIsのためのグローバルおよびローカルトークンを抽出することで、ROIsの正確な細かい品質評価を可能にしています。さらに、本論文では、2つのROIベースのIQAデータセット、SEAGULL-100wとSEAGULL-3kを構築しています。SEAGULL-100wには、約100wの合成歪み画像が含まれており、3300万のROIsが含まれています。これは、モデルの領域ごとの品質認識能力を向上させるための事前トレーニングに使用されます。一方、SEAGULL-3kには、約3kの本物の歪みROIsが含まれており、モデルが実世界の歪みを認識する能力を向上させます。SEAGULL-100wでの事前トレーニングとSEAGULL-3kでの微調整の後、SEAGULLは、細かいROIs品質評価で顕著なパフォーマンスを示します。コードとデータセットは、https://github.com/chencn2020/Seagull で公開されています。
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary