VisualQuality-R1: 순위 지정을 위한 강화 학습 기반 추론 유도 이미지 품질 평가
VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank
May 20, 2025
저자: Tianhe Wu, Jian Zou, Jie Liang, Lei Zhang, Kede Ma
cs.AI
초록
DeepSeek-R1은 강화 학습을 통해 대규모 언어 모델(LLMs)의 추론 및 일반화 능력을 유도하는 데 있어 뛰어난 효과를 입증했습니다. 그러나 시각적 추론에 크게 의존하는 작업인 이미지 품질 평가(IQA)의 맥락에서 추론 유도형 계산 모델링의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 VisualQuality-R1이라는 추론 유도형 무참조 IQA(NR-IQA) 모델을 소개하고, 시각적 품질의 본질적으로 상대적인 특성에 맞춰 설계된 강화 학습 기반 순위 학습 알고리즘을 통해 이를 학습시킵니다. 구체적으로, 한 쌍의 이미지에 대해 그룹 상대 정책 최적화를 사용하여 각 이미지에 대한 다중 품질 점수를 생성합니다. 이 추정값들은 Thurstone 모델 하에서 한 이미지가 다른 이미지보다 더 높은 품질을 가질 확률을 계산하는 데 사용됩니다. 각 품질 추정에 대한 보상은 이산화된 이진 레이블이 아닌 연속적인 충실도 측정을 통해 정의됩니다. 광범위한 실험을 통해 제안된 VisualQuality-R1이 판별적 딥러닝 기반 NR-IQA 모델과 최근의 추론 유도형 품질 회귀 방법을 지속적으로 능가함을 보여줍니다. 또한, VisualQuality-R1은 맥락적으로 풍부하고 인간과 일치하는 품질 설명을 생성할 수 있으며, 지각적 스케일 재조정 없이도 다중 데이터셋 학습을 지원합니다. 이러한 특징들로 인해 VisualQuality-R1은 초해상도 및 이미지 생성과 같은 다양한 이미지 처리 작업에서의 진전을 신뢰성 있게 측정하는 데 특히 적합합니다.
English
DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing
reasoning and generalization capabilities of large language models (LLMs)
through reinforcement learning. Nevertheless, the potential of
reasoning-induced computational modeling has not been thoroughly explored in
the context of image quality assessment (IQA), a task critically dependent on
visual reasoning. In this paper, we introduce VisualQuality-R1, a
reasoning-induced no-reference IQA (NR-IQA) model, and we train it with
reinforcement learning to rank, a learning algorithm tailored to the
intrinsically relative nature of visual quality. Specifically, for a pair of
images, we employ group relative policy optimization to generate multiple
quality scores for each image. These estimates are then used to compute
comparative probabilities of one image having higher quality than the other
under the Thurstone model. Rewards for each quality estimate are defined using
continuous fidelity measures rather than discretized binary labels. Extensive
experiments show that the proposed VisualQuality-R1 consistently outperforms
discriminative deep learning-based NR-IQA models as well as a recent
reasoning-induced quality regression method. Moreover, VisualQuality-R1 is
capable of generating contextually rich, human-aligned quality descriptions,
and supports multi-dataset training without requiring perceptual scale
realignment. These features make VisualQuality-R1 especially well-suited for
reliably measuring progress in a wide range of image processing tasks like
super-resolution and image generation.Summary
AI-Generated Summary