VisualQuality-R1: Оценка качества изображений, обусловленная логическим выводом, с использованием обучения с подкреплением для ранжирования

Аннотация

DeepSeek-R1 продемонстрировала выдающуюся эффективность в стимулировании способностей к рассуждению и обобщению у крупных языковых моделей (LLM) с использованием обучения с подкреплением. Тем не менее, потенциал вычислительного моделирования, индуцированного рассуждениями, не был тщательно исследован в контексте оценки качества изображений (IQA) — задачи, критически зависящей от визуального анализа. В данной статье мы представляем VisualQuality-R1, модель оценки качества изображений без эталона (NR-IQA), основанную на рассуждениях, и обучаем её с использованием обучения с подкреплением для ранжирования — алгоритма, адаптированного к внутренне относительной природе визуального качества. В частности, для пары изображений мы применяем оптимизацию групповой относительной политики для генерации нескольких оценок качества для каждого изображения. Эти оценки затем используются для вычисления сравнительных вероятностей того, что одно изображение имеет более высокое качество, чем другое, в рамках модели Терстона. Вознаграждения для каждой оценки качества определяются с использованием непрерывных мер точности, а не дискретизированных бинарных меток. Многочисленные эксперименты показывают, что предложенная модель VisualQuality-R1 стабильно превосходит дискриминативные модели NR-IQA, основанные на глубоком обучении, а также недавний метод регрессии качества, индуцированный рассуждениями. Более того, VisualQuality-R1 способна генерировать контекстуально насыщенные описания качества, согласованные с человеческим восприятием, и поддерживает обучение на нескольких наборах данных без необходимости пересогласования перцептивных шкал. Эти особенности делают VisualQuality-R1 особенно подходящей для надёжного измерения прогресса в широком спектре задач обработки изображений, таких как супер-разрешение и генерация изображений.

English

DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing reasoning and generalization capabilities of large language models (LLMs) through reinforcement learning. Nevertheless, the potential of reasoning-induced computational modeling has not been thoroughly explored in the context of image quality assessment (IQA), a task critically dependent on visual reasoning. In this paper, we introduce VisualQuality-R1, a reasoning-induced no-reference IQA (NR-IQA) model, and we train it with reinforcement learning to rank, a learning algorithm tailored to the intrinsically relative nature of visual quality. Specifically, for a pair of images, we employ group relative policy optimization to generate multiple quality scores for each image. These estimates are then used to compute comparative probabilities of one image having higher quality than the other under the Thurstone model. Rewards for each quality estimate are defined using continuous fidelity measures rather than discretized binary labels. Extensive experiments show that the proposed VisualQuality-R1 consistently outperforms discriminative deep learning-based NR-IQA models as well as a recent reasoning-induced quality regression method. Moreover, VisualQuality-R1 is capable of generating contextually rich, human-aligned quality descriptions, and supports multi-dataset training without requiring perceptual scale realignment. These features make VisualQuality-R1 especially well-suited for reliably measuring progress in a wide range of image processing tasks like super-resolution and image generation.

VisualQuality-R1: Оценка качества изображений, обусловленная логическим выводом, с использованием обучения с подкреплением для ранжирования

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

Аннотация

Support